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当前 ,微观 经 济 计量 学 作为 经 济 计量 学 前 沿 领 域 的 一 个 新 分 支 ,在 最 近 30 多 
年 间 得 到 了 迅速 发 展 。 微 观 经 济 计量 学 侧重 于 对 家 庭 、 厂 商 等 个 体 经 济 行为 进行 
计量 研究 ,其 研究 范围 非常 广泛 ,涉及 的 专题 包括 :劳动 力 供给 .工资 决定 .教育 选 
择 、 失 业 持 续 期 限 、 和 移民、 职业 选择 、 生 育 选择 、 性 别 层 视 、 种 族 歧 视 等 劳动 经 济 学 专 
题 ;税收 政策 及 福利 政策 的 效应 等 公共 财政 专题 ;商品 需求 .品牌 选择 等 消费 行为 
专题 ;住所 选择 、 区 位 选择 、 交 通 工 具 选 择 等 都 市 及 运输 经 济 学 专题 ; 生产 形式 选 
择 、 生 产 要 素 需求 .生产 效率 评估 等 产业 经 济 学 专题 。 微 观 经 济 计量 学 几乎 涵盖 了 
所 有 涉及 个 体 经 济 方面 的 专题 。 

这 部 由 卡 梅 伦 和 特 里 维 迪 所 著 的 《微观 经 济 计量 学 一 一 方法 与 应 用 》, 除 详细 
介绍 微观 经 济 计 量 学 中 广泛 运用 的 各 类 模型 理论 基础 之 外 ,还 特别 强调 微观 经 济 
计量 方法 的 实证 应 用 ,突出 了 对 建立 及 运用 模型 的 过 程 中 可 能 产生 的 名 种 实际 问 
题 的 处 理 。 而 且 ,作者 对 有 关 最 新 进展 专题 或 特定 模型 的 估计 及 检验 方法 进行 了 
逐一 评述 。 实 际 上 ,本 书 几乎 襄 括 了 当今 微观 经 济 计量 学 的 各 类 专题 。 书 中 内 容 
专题 众多 ,体现 出 两 位 作者 极 高 的 学 术 造 话 , 他 们 特别 擅长 统计 学 方法 ,在 阅 述 微 
观 经 济 计量 建 模 问 题 时 ,其 经 济 计量 建 模 思想 深 移 、 建 模 技 术 娴 熟 ,使 你 在 研读 之 
后 真正 体会 到 ,统计 学 方法 或 数学 工具 只 是 进入 前 沿 领域 的 一 块 基石 ,更 重要 的 是 
拥有 一 种 经 济 计量 建 模 的 理念 及 直觉 力 。 

正如 经 济 计量 学 家 、 美 国 南 加 利 福 尼 亚 大 学 萧 政教 授 所 装 誉 的 :“ 这 本 书 对 当 
前 微观 经 济 计量 学 家 所 广泛 研究 的 迅速 发 展 的 专题 给 出 了 优美 而 深入 浅 出 的 处 
理 。 以 富 于 创见 、 直 观 精湛 的 方式 对 复杂 的 经 济 计量 方法 论 核心 概念 加 以 设计 ,本 
书 不 仅 对 大 学 生 而 言 是 一 部 优秀 的 教科 书 , 对 实践 者 与 研究 者 来 说 ,也 是 一 部 非常 
宝贵 的 参考 书 。” 

(一 ) 经 济 计量 学 到 底 有 什么 用 途 ? 

这 里 不 能 不 提 及 ,经 济 计 量 学 到 底 有 什么 用 途 ? 换 句 话说 ,经 济 计量 学 的 作用 
何在 ? 尽管 稍稍 拥有 经 济 计量 学 知识 的 人 士 对 这 个 问题 都 可 能 略 知 一 二 ,为 了 对 
当代 经 济 学 有 一 个 深刻 的 认识 和 理解 ,我 们 有 必要 在 此 更 深入 地 考究 一 番 。 
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经 济 计 量 学 的 用 途 主要 有 四 个 方面 : 

第 一 ,经 济 计量 学 最 明显 的 用 途 是 用 于 检验 经 济 理论 的 含义 是 否 正确 。 经 济 
理论 的 实质 是 一 系列 的 假设 。 因 此 ,要 检验 经 济 理论 正确 与 否 ,就 是 要 检验 其 假设 
是 正确 的 还 是 错误 的 。 

已 故 经 济 学 家 米尔 顿 。 弗 里 德 曼 (Milton Friedman，1912 一 2006 年 ) 在 他 的 
著作 《实证 经 济 学 方法 论 》(1953) 中 认为 :理论 的 实质 是 一 系列 的 假设 …… 一 般 而 
言 , 可 以 发 现 , 真 正 举 足 轻 重 的 假说 的 “假设 ?都 是 对 现实 的 一 种 粗略 的 、 不 十 分 
精确 的 描述 。 而 且 , 通 常理 论 越 是 重要 ,其 “假设 ”就 越 是 不 真实 。 个 中 原因 非常 简 
单 ……: 因此 ,从 意义 重大 的 角度 来 看 ,假说 对 于 假设 就 不 能 是 忠实 的 描述 ;假说 对 
于 解 杰 已 有 现象 的 成 功 , 表 明 具 体现 实 环境 因素 的 影响 种 有 限 的 ,那么 假说 的 假设 
自然 也 就 不 必 对 现实 环境 亦 步 亦 趋 。” 

英国 经 济 计量 学 家 训 德 瑞 (Hendry) 认 为 : “经济 计量 学 的 三 个 信条 是 :检验 、 
检验 .再 检验 。 

第 二 ,经 济 计量 学 用 于 测算 理论 上 定义 的 参数 或 者 不 可 观测 变量 的 未 知 值 。 
在 极端 情况 下 可 以 认为 ,经 济 计 量 学 是 发 现 经 济 现象 的 助 推 器 , 即 直接 测量 由 经 济 
理论 提出 的 基本 关系 ,和 忌 如 柯 布 一 道格拉斯 生成 函数 的 创立 及 发 现 。 

上 述 两 种 作用 均 将 理论 置 于 证 据 之 前 。 这 就 存在 两 种 情况 :其 一 , 先 提出 一 种 
经 济 理论 ,而 后 整理 支持 该 理论 的 证 据 ; 其 二 ,经 济 理 论 对 于 所 给 定义 或 者 测算 目 
标 来 说 极其 重要 。 

第 三 ,经 济 计 量 学 用 于 预测 变量 值 , 预 测 可 直接 建立 在 先 验 经 济 理论 之 上 ,或 
者 预测 是 一 种 非 理 论 的 统计 演算 。 进 行 预测 时 ,要 假定 拥有 进行 样本 外 推 关 系 的 
平稳 性 。 另 外 ,理论 说 明 经 常 为 偶然 规律 和 真实 规律 之 间 的 差 蜡 提供 了 强 有 为 的 
支持 。 如 果 缺 少 这 一 点 ,那么 经 济 计 量 研究 者 就 会 同 股票 市 场 图 形 研究 者 没有 什 
么 两 样 。 

第 四 ,经 济 计 量 学 用 于 刻画 一 种 经 济 关系 或 现象 。 经 济 计 量 学 所 包含 的 数据 
可 以 揭示 出 特定 经 济 变量 之 间 的 关系 ,从 而 成 为 支撑 理论 的 素材 。 

(二 ) 从 经 济 计 量 学 方法 论 视 角 ,提升 实证 分 析 建 模 认 知 

厦门 大 学 王 亚 南 经 济 研 究 院 院 长 .经 济 计 量 学 家 洪 永 橙 教授 认为 现代 经 济 
计量 学 实际 上 是 建立 在 以 下 两 个 基本 公理 之 上 的 : (1) 经 济 系 统 可 以 看 作 服 从 一 
定 概率 法 则 的 随机 过 程 ;(2) 经 济 现象 (主要 表现 为 经 济 数据 ) 可 以 看 作 这 个 随机 
数据 生成 过 程 (data generating process) 的 实现 。” 

尽管 现代 经 济 计 量 领域 大 量 运 用 高 等 数理 统计 方法 及 理论 ,但 这 两 者 之 间 的 
方法 论 仍然 是 有 差异 的 。 更 准确 地 讲 , 经 济 计量 学 方法 论 与 应 用 于 经 济 中 的 统计 
学 方法 论 是 有 区 别 的 。 那 么 ,经 济 计 量 学 方法 论 与 应 用 于 经 济 中 的 统计 学 方法 论 
的 区 别 在 哪里 呢 ? 或 者 说 ,两 者 之 间 的 最 大 差 漠 是 什么 呢 ? 

众所周知 ,高 等 经 济 计 量 学 广泛 运用 高 等 统计 学 知识 。 握 庸 置疑 ,具有 高 等 统 
计 学 知识 为 理解 .认识 和 掌握 高 等 经 济 计量 方法 论 提 供 一 个 较 好 的 基础 ,但 在 学 习 
及 研究 高 等 经 济 计量 学 知识 时 , 仍 会 遇 到 诸多 困难 ,其 原因 何在 ? 

统计 学 方法 论 就 是 要 正确 地 揭示 概率 并 说 明 它 是 如 何 应 用 于 数据 中 的 。 这 
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里 ,关于 概率 的 经 上 典 解释 各 贝 叶 斯 解释 之 间 的 争论 是 一 个 核心 内 容 。 当 然 , 这 同样 
也 是 经 济 计量 方法 论 的 中 心 议题 。 不 过 ,这 里 将 不 涉及 该 议题 。 

我 们 认为 ,要 想 解 决 这 个 普遍 存在 的 问题 ,就 必须 提升 对 经 济 计量 方法 论 的 理 
解 层 次 ,在 经 济 计 量 学 方法 论 的 认 知 方面 有 一 定 提 高 及 进步。 为 此 ,首先 要 清楚 地 
认识 和 掌握 经 济 计 量 学 方法 论 与 应 用 于 经 济 中 的 统计 学 方法 论 的 区 别 。 这 两 种 方 
法 论 的 差 坚 存在 于 两 个 方面 。 

第 一 ,英国 哲学 家 南 希 。 卡 特 赖 特 (Nancy Cartwright) 认为 ,与 社会 学 不 同 ， 
经 济 计 量 学 揭示 了 统计 学 应 用 ， 是 运用 理论 的 学 科 ”。 

卡特 赖 特 的 这 个 观点 引起 了 许多 经 济 计量 学 家 的 共鸣 ,认为 经 济 理 论 必 须 为 
统计 经 济 解释 提供 所 需要 的 识别 。 这 样 便 遭 遇 到 所 有 的 先 验方 法 问题 :必须 拥有 
正确 的 理论 来 定义 自然 法 则 机 制 或 者 识别 模型 ,但 倘若 推断 方向 仅仅 从 理论 到 数 
据 , 那 么 怎样 运用 经 验证 据 来 确定 哪 一 种 理论 是 正确 的 呢 ? 实际 上 ,对 此 类 问题 的 
讨论 将 涉及 科学 哲学 的 诸多 观点 与 流派 。 

不 过 ,应该 提 及 的 是 ,经 济 计 量 学 家 哈 维 软 (Haaveljmo，1911 一 1999 年 ) 在 
1943 年 建立 了 经 济 计 量 学 的 概率 论 基 础 。 这 为 近 现 代 的 经 济 计 量 学 进一步 发 展 
打下 了 坚实 基础 。 

纵 观 经 济 计量 发 展 史 可 以 发 现 , 严 谨 的 经 济 计量 理论 的 发 展 紧密 地 依赖 于 统 
计 学 的 最 新 进展 ,经 济 计量 领域 的 任何 重要 发 展 都 源 于 此 。 早 先 文 献 中 的 许多 困 
感 ,通过 利用 概率 工具 得 以 澄清 ,从 而 更 准确 定义 与 辨析 那些 易 混 淆 的 知识 。 与 此 
同时 ,数理 统计 学 的 迅速 发 展 、. 先 进 成 果 转 移 及 推广 , 极 大 地 激发 了 经 济 计量 理论 
研究 ,这 类 动因 无 论 是 在 理论 深度 还 是 在 应 用 广度 上 都 得 到 了 不 断 发 展 。 

第 二 ,经 济 计量 学 方法 论 关注 于 建立 因果 关系 , 面 统计 学 通常 满足 于 建立 相关 
关系 。 诺 贝尔 经 济 学 奖 得 主 、 经 济 计 量 学 家 赫 克 曼 (Heckman) 教 授 认 为 “大 部 分 
经 济 计量 理论 采用 的 都 是 最 初 源 自 统计 学 的 研究 方法 。 有 一 个 重要 的 例外 , 即 识 
别 问题 的 经 济 计量 分 析 , 还 有 与 之 相伴 的 结构 方程 分 析 、 因 昧 性 分 析 以 及 经 济 政策 
评价 。” 

“20 世纪 经 济 计量 学 对 知识 的 重大 贡献 是 对 因果 参数 的 定义 ……: 为 了 揭示 来 
自 数 据 的 因果 参数 而 需要 的 分 析 …… 政策 评价 的 因果 参数 作用 得 以 注 清 。” 

经 济 计量 学 作为 一 种 因 林 科学 思想 , 颇 为 引 人 注 目 。 可 是 ,几乎 可 以 肯定 ,这 
种 思想 是 一 种 历史 观 。 最 近 20 多 年 来 ,不 论 是 微观 经 济 计量 研究 还 是 宏观 经 济 计 
量 研究 ,都 在 试图 恢复 揭示 因果 关系 的 经 济 计 量 建 模 方法 。 

(三 ) 经 济 实证 方法 的 两 大 派别 

通常 ,经 济 模型 有 两 大 类 ;一 类 是 理论 模型 , 男 一 类 是 实证 模型 。 理 论 模 型 是 
从 经 济 理论 中 直接 导出 ,而 实证 模型 则 是 从 理论 模型 衍生 出 来 ,要 用 实际 数据 来 全 
计 。 一 般 来 讲 , 实 证 模型 是 以 回归 模型 形式 表示 ,对 模型 中 所 涉及 的 变量 均 要 给 予 
明确 定义 ,并 对 解释 变量 和 因 变 量 之 间 的 关系 详细 说 明 , 此 外 ,也 要 对 模型 的 主要 
系数 或 由 这 些 系 数 导 出 的 弹性 可 能 数值 的 大 小 及 符号 给 予 一 定 的 预期 。 

一 般 来 说 ,对 于 建立 实证 模型 时 如 何 利 用 经 济 理论 的 问题 ,不 同 研究 者 有 着 不 
尺 相 同 的 观点 ,他 们 可 能 会 产生 一 些 争论 ,甚至 出 现 截然 不 同 的 观点 。 目 前 ,就 这 
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个 问题 而 言 ,存在 两 种 极端 方法 。 一 种 方法 认为 ,理论 包含 着 唯一 .纯粹 的 真理 , 因 
而 应 成 为 模型 基础 。 持 有 该 观点 的 研究 者 声称 ,所 有 的 残 差 都 应 该 得 到 理论 的 解 
释 , 而 不 给 随机 性 、 不 确定 性 或 系统 的 外 生 冲 击 留 有 一 席 之 地 。 这 种 建 模 方 法 也 称 
为 结构 方法 ,认为 数据 不 可 能 完全 显示 自己 是 怎样 产生 的 。 结 构 方 法 起 源 于 考 尔 
斯 委员 会 。 

持 有 结构 方法 的 研究 者 认为 ,假如 说 经 济 研究 的 目标 是 数据 生成 过 程 (DGP)， 
则 只 有 在 研究 者 烧 型 的 协助 下 才能 了 解数 据 产 生 结 构 , 尽 管 研 究 者 模型 可 能 是 错 
误 的 。 从 科学 研究 方法 看 ,结构 方法 非常 接近 于 物理 学 研究 方法 。 众 所 周知 ,物理 
学 家 从 事 科 学 研究 的 方法 有 :(1) 数学 理论 (主要 是 数学 模型 );(2) (实验 室 中 的 ) 
实验 方法 ;(3) 计算 机 模拟 法 。 物 理学 家 想 要 了 解 物质 是 怎样 运转 的 ,通常 先 提 出 
模型 ,然后 用 实验 加 以 检验 。 物 理学 家 的 模型 可 能 是 错误 的 ,即使 模型 与 目前 所 有 
的 数据 符合 ;但 倘若 没有 模型 ,物理 学 家 的 理论 就 无 从 运用 ,因为 一 大 堆 无 模型 的 
数据 不 能 被 用 来 预测 。 

持 有 结构 方法 的 经 济 研究 者 注重 模型 ,强调 估计 模型 的 原始 参数 。 所 谓 原 始 
参数 是 指 那 些 在 偏好 和 各 技术 方程 中 的 参数 。 这 些 参 数 不 会 因为 政策 干涉 而 变化 。 
相反 ,应 用 简化 方法 估计 的 参数 多 数 不 是 原始 参数 ,因而 无 法 用 来 进行 预测 ,尤其 
无 法 预测 从 来 没 实 施 过 的 政策 会 有 什么 影响 。 

另 一 种 方法 认为 ,只 依据 经 济 现象 所 呈现 出 的 规律 性 和 关联 性 ,建立 基于 对 数 
据 观 测 的 “ 非 理论 的 ”模型 。 这 种 建 模 方法 称 为 简化 方法 。 简 化 方法 与 结构 方法 的 
区 别 在 于 它们 对 经 济 理论 在 实证 研究 的 作用 定义 不 同 。 

简化 方法 认为 ,实证 研究 应 该 让 “数据 自己 说 话 ”, 认 为 经 济 理论 模型 是 由 研究 
者 意志 决定 的 ,将 研究 者 的 认识 和 看 法 施加 到 数据 上 而 得 到 的 结论 ,只 有 在 模型 
正确 的 情况 下 才 会 正确 。 由 于 研究 者 不 可 能 知道 什么 模型 是 正确 的 , 他们 的 主要 
研究 工具 很 简单 :使 用 各 种 各 样 的 回归 分 析 。 实 际 上 ,实证 研究 不 仅仅 看 数据 ,更 
重要 的 一 部 分 内 容 是 对 实证 研究 方法 的 研究 ,因为 任何 一 篇 以 数据 为 主 的 论文 ,其 
研究 结果 的 有 效 性 取决 于 所 用 的 研究 方法 。 一 个 很 好 的 例子 是 , 赫 克 曼 的 选择 模 
型 完全 改变 了 之 前 关于 劳动 力 供给 的 研究 成 果 。 

对 上 述 方法 论 的 认识 ,可 用 一 个 “经 济 理论 一 经 济 数据 一 建 模 方法 一 实证 模型 
(或 经 验 模型 )” 的 全 程 建 模 框架 来 刻画 及 描述 ,如 下 页 图 所 示 。 

总 之 ,不 论 是 学 习 、 研 究 高 等 经 济 计 量 学 理论 及 方法 ,还 是 提升 自己 对 经 济 问 
题 的 计量 建 模 水 平和 认 知 层次 ,除了 扩大 特定 的 前 沿 专 业 知 识 外 ,还 应 该 围绕 经 济 
计量 建 模 方法 论 框 架 展开 。 对 经 济 计量 建 模 全 过 程 , 要 有 一 个 清晰 的 认识 和 理解 ， 
做 到 知 方 法 、 明 过 程 ,促使 自己 今后 在 探究 经 济 问题 时 更 有 章 可 循 ,其 终极 目的 就 
是 用 规范 的 实证 研究 方法 表达 新 的 观点 ,或 者 阐明 对 经 济 现象 内 在 规律 的 发 现 。 

译 者 先后 参与 2007 年 教育 部 重大 项 目 (07JJD790131)、2008 年 教育 部 重大 项 
目 (08JJD790153)“ 吉 林 大 学 “985 工程? 项目” 经 济 分 析 与 预测 创新 基地 项 目 
(985CXJD001) 的 研究 工作 ,以 及 作为 跟踪 和 掌握 经 济 计量 领域 最 新 进展 的 翻译 和 
研究 工作 ,为 理论 基础 及 方法 创新 起 到 和 良好 的 支撑 作用 ,并 在 上 述 各 个 项 目的 探索 
和 研究 中 发 挥 了 重要 的 学 术 作 用 ,提供 了 重要 的 参考 价值 。 
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本 书 针对 微观 经 济 计量 分 析 做 出 了 详细 研究 ,内 容 涉 及 对 揭示 个 体 或 厂商 经 
济 行 为 的 个 体 层 面 数据 加 以 分 析 。 此 类 分 析 通 常 需要 对 横 截 面 与 面板 数据 运用 加 
归 分 析 方 法 。 

本 书 旨 在 为 应 用 研究 者 提供 一 种 综合 的 统计 方法 ,以 及 将 其 用 于 现代 微观 经 
济 计 量 领域 的 研究 方法 。 这 些 方法 包括 : 非 线性 建 模 方法 .最 小 分 布 假 设 条 件 下 的 
推断 、 识 别 与 测量 因果 关系 而 非 纯 粹 的 关联 ,以 及 对 违背 简单 随机 抽样 加 以 修正 。 
在 社会 科学 中 ,这 些 特性 全 部 与 个 体 层 面 数据 分 析 有 关 .。 

如 此 雄心 勃勃 的 设想 决定 了 本 书 的 特点 。 第 一 ,本 书 虽然 是 面向 应 用 研究 者 
的 ,但 在 层次 上 属于 相对 高 级 的 水 准 。 由 于 两 种 以 上 的 因素 同时 发 生 作 用 是 一 种 
常见 情况 ,所 以 采用 照搬 手册 的 方法 明显 不 合适 ,因此 ,应 用 研究 者 必须 掌握 足够 
多 的 知识 ,以 便 采用 合适 的 方法 。 第 二 ,本 书 给 出 相当 多 的 实际 数据 问题 (尤其 在 
最 后 三 章 )。 第 三 ,为 了 阐明 所 述 方 法 ,本 书 许多 章节 包括 大 量 的 实证 例子 。 最 后 ， 
本 书 篇 幅 非 常 长 。 尽 管 在 篇 章 上 我 们 加 以 限制 ,但 仍旧 是 非常 厚重 。 我 们 在 分 析 
时 包括 特别 多 的 实证 例子 ,倘若 运用 简略 描述 ,经 常会 使 研究 者 做 出 的 实质 贡献 无 
法 被 揭示 出 来 。 

本 书 假定 读者 能 理解 用 矩阵 代数 形式 表述 的 线性 回归 模型 。 与 格林 (Greene， 
2003) 的 书 相 比 , 本 书 使 用 的 数学 知识 定位 于 一 年 级 经 济 学 博士 生 的 后 继 课程 。 本 
书 有 两 大 类 读者 。 第 一 类 读者 运用 本 书 作 为 微观 经 济 计量 学 教材 ;一 般 来 讲 , 在 博 
士 研 究 生 的 第 二 学 年 里 讲授 该 课程 ,或 者 作为 微观 经 济 学 领域 的 课程 ,比如 以 数据 
为 导向 的 劳动 经 济 学 .公共 经 济 学 .行业 组 织 等 课程 。 第 二 类 读者 是 研究 者 ,将 本 
书 作 为 参考 书 , 这 些 人 虽然 在 微观 经 济 计量 学 方面 已 经 入 门 , 但 仍 希望 进一步 提升 
自己 在 这 方面 的 知识 。 

对 于 使 用 本 书 作为 经 济 计 量 学 教材 的 教师 来 说 ,一 种 最 好 的 方式 是 ,最 初 略 过 
一 些 章节 的 方法 ,尽早 引入 基本 的 非 线 性 横 截 面 与 线性 面板 数据 模型 。 涉 及 重要 
方法 的 章节 (第 5 章 ) 涵 盖 了 极 大 似 然 法 与 非 线性 最 小 二 乘法 估计 。 掌 握 极 大 似 然 
法 与 非 线 性 最 小 二 乘法 估计 量 的 知识 ,为 最 广泛 运用 的 非 线 性 横 截 面 模型 (第 14 


i ] .…… 
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章 、 第 17 章 和 第 20 章 )、 基 本 线性 面板 数据 模型 (第 21 章 ) 以 及 处 理 评估 方法 (第 
23 章 ) 提 供 了 充足 的 基础 知识 。 对 于 高 级 线性 面板 数据 方法 (第 22 章 ) 来 说 ,特别 
需要 广义 和 矩 方法 估计 (第 6 章 ) 知 识 。 

对 于 利用 本 书 作 为 参考 书 的 读者 来 说 ,许多 章节 的 写作 尽 可 能 地 目 成 体系 。 
值得 注意 的 例外 是 ,第 5 章 与 第 6 章 偶尔 出 现 某 些 一 般 估计 结果 的 计算 机 命令 ,这 
是 必需 的 。 绝 大 多 数 章 节 模 型 的 阐述 采用 使 读者 易于 理解 的 讨论 及 例子 作为 
开始 。 

www. econ. ucdavis. edu/faculty/cameron 网 站 给 出 了 本 书 所 用 的 全 部 数据 与 
计算 机 程序 ,以 及 便于 教学 的 相关 有 益 材 料 。 

写作 本 书 是 一 项 长 期 而 艰巨 的 工作 ,有 时 显得 遥遥 无 期 。 项 目的 完成 得 到 了 
同事 .朋友 以 及 研究 生 的 大 力 支持 。 我 们 特别 感谢 阅读 并 评论 特定 章节 的 下 述 人 
员 ，Bijan Borah，Kurt Brinnis, Pian Chen, Tim Cogley，Partha Deb, Massimil- 
iano De Santis, David Drukker, Jeff Gill, Tue Gorgens, Shiferaw Gurmu, Lu Jl, 
Oscar Jorda, Roger Koenker, Chenghui Li, Tong Li, Doug Miller, Murat 
Munkin, Jim Prieger, Ahmed Rahmen， Sunil Sapra, Haruki Seitani, Yachen 
Sun，Xiaoyong Zheng 和 David Zimmer。Pian Chen 对 本 书 大 部 分 内 容 给 出 了 详 
细 评 论 。 我 们 感谢 Rajeev Ddhejia, Bronwyn Hall, Cathy Kling, Jetfrey 天 ling， 
Will Manning，Brian McCall 和 Jim Ziliak, 他 们 为 本 书 阅 述 许多 实证 例子 提供 了 
数据 。 我 们 感谢 各 个 院 系 提供 给 作者 的 合作 便利 ,以 及 为 完成 不 同 阶段 的 手稿 而 
提供 的 便利 。 我 们 从 两 位 匿名 评阅 人 那里 得 到 有 益 的 评论 。 剑 桥 出 版 社 的 编辑 
Scott Parris 为 我 们 提供 了 极为 宝贵 的 指导 、 建 议和 鼓励 。 

我 们 在 经 济 计量 学 上 的 兴趣 , 源 于 我 们 在 学 生年 代 的 学 术 生 涯 初期 所 受到 的 
”训练 和 所 处 环境 的 量 了 移 。 第 一 位 作者 感谢 澳大利亚 国立 大 学 ;特别 是 斯 坦 福 大 学 
的 Takesh Amemiya 和 Tom MaCurdy; 以 及 俄亥俄 州立 大 学 。 第 二 位 作者 感谢 化 
敦 经 济 学 院 和 澳大利亚 国立 大 学 。 

写作 这 样 一 本 面向 应 用 研究 者 的 著作 的 兴趣 , 源 自 我 们 在 各 目 学 院 (CUC-Davis 
与 TU-Bloomington) 与 研究 生 和 同事 进行 研究 时 所 显露 的 问题 。 

最 后 ,要 感谢 我 们 的 家 庭 , 假 如 没有 家 庭 的 理解 和 支持 ,要 想 完成 这 本 书 是 不 
可 能 的 。 


A. 科 林 。 卡 梅 伦 (A. Colin Cameron) 加利福尼亚 州 戴 维 斯 
兽 拉 温 。K, 特 里 维 迪 (Pravin K. Trivedi) 印第安 纳 州 伯明翰 
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1.1 5 引 | 襄 


本 书 提 供 对 微观 经 济 计 量 分 析 (mircoeconometric analysis) 的 详细 研究 , 即 对 
个 人 或 厂商 的 经 济 行为 方面 的 个 体 水 平 数 据 进 行 分 析 。 比 较 宽泛 的 定义 还 包括 分 
组 数据 。 通 常 ,回归 方法 应 用 于 横 截面 或 面板 数据 。 

对 个 体 数 据 进 行 分 析 具 有 悠久 的 历史 。 厄 恩 斯 特 。 恩格尔 (Ernst Engel， 
1857) 是 住户 预算 的 最 早 的 数量 研究 者 。 艾 伦 和 人 鲍 利 (Allen and Bowley，1935)、 
霍 撒 友 (Houthakker，1957) 以 及 普 雷 斯 和 霍 撒 克 (Prais and Houthakker，1955) 
对 随后 同样 的 研究 与 建 模 传统 做 出 重要 贡献 。 在 对 微观 经 济 计量 学 发 展 的 激励 
中 ,同样 具有 影响 的 男 外 一 些 里 程 碑 似 的 工作 研究 ,包括 在 生产 理论 中 由 马 歌 元 和 
安德鲁 斯 (Marschak and Andrews,，1944) 所 做 的 研究 ,以 及 在 消费 知 求 中 由 沃 泵 
德 和 朱林 (Wold and Jureen，1953)、 斯 通 (Stone，1953) 以 及 托 宾 (Tobin，1958) 所 
做 出 的 那些 研究 。 

与 上 面 所 提 到 的 早期 工作 同样 重要 的 是 ,关于 住户 预算 和 需求 分 析 , 本 书 中 所 
禄 盖 的 内 容 与 离散 选择 分 析 、 删 失 变 量 和 鹤 取 变量 模型 的 研究 具有 比较 紧密 的 联 
系 , 在 麦克 法 登 (McFadden，1973， ee 1974，1979) 的 研究 
工作 中 ,可 以 分 别 看 到 这 些 方面 的 第 一 个 严谨 的 经 济 计量 应 用 。 这 些 人 研究 并 没有 
使 用 传统 的 线性 模型 ,而 早期 研究 极度 信赖 线性 模型 ， 六 以 此 特征 因此 ,它们 
曾 导致 经 济 计量 学 重要 方法 上 的 创新 。 马达 拉 (Maddala，1983) 和 雨 官 
(Amemiya，1985) 的 著作 是 研究 这 类 内 容 ( 另 外 一 些 内 容 ) 的 较 早 的 教科 书 式 的 处 
理 。 正 如 赫 克 曼 (Heckman，2001)、 才 克 法 登 (McFadden，2001) 以 及 其 他 学 独 所 
强调 的 ,建立 在 市 场 数据 基础 之 上 的 处 于 支配 地 位 的 早期 人 研究 工作 中 的 许多 重要 
问题 仍旧 是 重要 的 ,尤其 是 关于 因果 经 济 关 系 可 识别 性 的 必要 和 条件。 然而 ,微观 经 
济 计量 学 的 研究 风格 极 多 ,多 到 足以 写 出 一 部 完全 致力 于 它 的 课本 。 

建立 在 个 人 水 平 . 住 户 水 平 以 及 企业 水 平 数据 之 上 的 现代 微观 经 济 计量 学 , 拥 
有 大 量 的 出 于 横 截面 和 纵向 的 样本 调查 ,还 有 人 口 普查 数据 可 以 利用 ,这 些 数 据 宛 
很 容易 获得 。 在 过 去 20 年 里 , 随 着 个 体 水 平 上 电子 记录 不 断 扩 展 和 数据 的 收集 ， 
数据 量 呈 现 爆 炸 式 增长 。 


微观 经 济 计量 学 


同样 ,也 可 以 利用 计算 机 分 析 大 量 且 复杂 的 数据 集合 。 在 许多 情况 下 ,可 以 利 
用 事件 水 平 数据 ;例如 ,市 场 营 销 学 经 常 处 理由 超市 电子 扫描 器 所 收集 的 买卖 数 
据 ,而 行业 组 织 文献 包括 由 在 线 订 票 系统 收集 的 航空 旅行 数据 的 经 济 计量 分 析 。 
现在 ,经 济 学 存在 一 些 新 的 分 文 , 诸 如 社会 实践 和 实验 经 济 学 ,它们 都 会 生成 实验 
数据 。 这 些 发 展 创造 了 许多 胃 新 的 建 模 机 会 ,而 这 种 建 模 机 会 在 仅仅 利用 汇总 
市 场 水 平 数 据 时 是 没有 的 。 同 时 ,数据 量 与 类 型 爆炸 式 增长 也 产生 了 大 量 的 方法 
问题 。 以 揭示 经 济 行 为 模式 为 目标 ,对 这 类 大 量 微 观 数据 进行 加 工 处 理 与 经 济 计 
量 分 析 构 成 微观 经 济 计量 学 的 核心 。 对 这 类 数据 进行 经 济 计 量 分 析 是 本 书 的 
主题 。 

本 书 的 重要 先导 内 容 是 马达 拉 (Maddala，1983 ) 与 雨 宫 (Amemivya，1985 ) 的 
书 。 像 这 两 本 书 一 样 , 本 书 涵盖 了 本 科 生 和 一 年 级 研究 生 的 经 济 计量 学 课程 中 的 
只 是 简要 表述 而 非 完 全 表述 的 专题 。 特 别 地 ,与 雨 宫 (Amemiya，1985) 的 书 相 比 ， 
本 书 更 以 实践 为 导向 。 不 过 ,在 一 些 适当 的 地 方 ,其 阐述 水 平 是 高 等 的 ,对 于 数学 
推导 弱 于 经 济 学 学 科 的 应 用 研究 者 来 说 ,尤其 是 这 样 。 

要 求 相 对 高 等 的 前 述 有 几 个 原因 。 第 一 ,数据 常常 是 离散 的 或 者 删 失 的 ,在 此 
情况 下 就 要 使 用 非 线 性 方法 (nonlinear methods) ,诸如 logit、probit 以 及 Tobit 模 
型 。 这 将 导致 建立 在 更 困难 的 渐 近 理论 基础 之 上 的 统计 推断 。 

第 二 ,对 于 这 类 数据 来 说 ,分 布 假设 (distribution assumptions) 是 极为 重要 的 。 
一 种 解答 就 是 要 充分 发 展 详细 地 捕获 到 数据 复杂 性 的 高 度 参 数 模型 ,但 是 ,这 些 模 
型 面临 估计 的 挑战 。 更 为 普遍 的 回答 是 要 最 小 化 参数 假设 ,并 且 实 施 建 立 在 标准 
误差 基础 上 的 统计 推断 ,其 中 的 标准 误差 对 诸如 蜡 方 差 性 和 聚集 Cclustering) 的 复 
夷 情况 来 说 是 “稳健 的 >”。 在 这 种 情况 下 ,尽管 可 以 使 用 标准 的 回归 软件 包 , 但 需要 
相当 多 的 知识 来 确保 有 效 的 统计 推断 。 

第 三 ,经 济 研 究 通 常 的 自 的 是 要 决定 因果 关系 Cecausation) ,而 不 是 仅仅 测算 相 
关 关 系 , 要 采用 观测 数据 而 不 是 实验 数据 。 这 导致 了 脱离 因果 关系 的 一 些 方法 , 壁 
如 工具 变量 . 联 立 方程 .测量 误差 相关 ,面板 固定 效应 以 及 差异 中 的 差分 。 

第 四 ,一般 来 说 ,微观 经 济 数据 是 利用 横 截 面 与 面板 调查 人口 普查 或 者 社会 
实验 来 收集 。 调 查 数据 (survey data) 则 利用 受 限 于 复杂 调查 方法 问题 的 这 些 方法 
来 收集 ,违背 简单 随机 抽样 假设 .样本 选择 问题 .测量 误差 ,不 完全 数据 和 /或 缺失 
数据 。 对 这 类 问题 加 以 处 理 的 方式 支持 从 所 估计 的 经 济 测量 模型 中 得 出 的 有 效 总 
体 推断 ,这 样 做 要 使 用 高 等 方法 。 

壤 后 , 常 弟 会 有 两 个 或 更 多 的 复 末 情况 同时 发 生 , 诸 如 上 有 具有 面板 数据 的 logit 
模型 中 的 内 生性 。 因 此 ,详细 曾 述 手册 式 的 方法 变 得 非常 难以 执行 。 相 反 , 需 要 对 
支撑 方法 的 理论 进行 相当 深入 的 理解 ,这 就 如 同 饰 究 者 需要 阅读 经 济 计量 学 期 刊 
文章 以 及 应 用 标准 的 经 济 计量 学 软件 一 样 。 


1.2 微观 经 济 计量 学 的 特色 


现在 ,我 们 考察 微观 经 济 计量 学 的 几 个 优点 ,这 由 它 的 独 有 特性 体现 出 来 。 


,。.. 凡 


1.2.1 离散 性 与 非 线 性 糙 


首要 的 且 最 明显 的 特点 是 ,微观 经 济 计 量 数据 通常 是 在 低 水 平 上 汇总 的 。 对 
于 使 用 函数 形式 分 析 所 关注 的 变量 来 说 ,这 是 一 个 重要 的 结果 。 在 许多 但 不 是 最 
主要 的 情况 下 ,可 以 证 明 ,线性 函数 形式 是 不 合适 的 。 蝎 为 基本 的 是 , 非 汇 总 会 引 
起 个 人 ,厂商 以 及 组 织 的 最 重要 的 异 质 性 (heterogeneity) ,如 果 人 们 要 对 基本 关系 
做 出 有 效 推 导 ,就 应 该 对 个 人 .厂商 以 及 组 织 进行 适当 的 控制 ( 建 模 )。 我 们 将 在 以 
下 几 节 以 较为 详细 的 方式 对 这 些 问题 加 以 讨论 。 

在 微观 数据 中 ,汇总 并 不 是 全 都 没有 ,例如 , 当 对 家 许 水 平 数据 或 企业 水 平 数 
据 进 行 汇 总 时 ,所 汇集 的 总 水 平 数量 级 经 第 比 宏观 分 析 中 的 普通 情况 要 低 一 些 。 
在 宏观 情况 下 ,汇集 过 程 会 导致 光滑 ,在 求 和 过 程 中 会 令 许 多 方 回 相反 的 运动 相互 
抵消 。 汇 总 形成 的 变量 常常 表现 出 比 其 成 分 更 为 光滑 的 行为 ,而 且 汇 电 后 变量 的 
:关系 往往 比 其 成 分 更 具有 光 请 性 。 例 如 ,在 微观 水 平 上 ,两 个 变量 之 国 的 关系 可 能 
是 存在 许多 结 点 的 分 段 线性 关系 。 在 汇总 之 后 ,这 一 关系 可 能 由 光滑 函数 很 好 地 
通 近 。 因 此 ,不 汇总 的 直接 后 果 是 ,无 论 是 变量 本 身 还 是 变量 之 间 的 关系 ,都 缺乏 
连续 性 与 光滑 性 。 

通常 ,个 人 水 平 与 厂商 水 平 数据 涵盖 大 量 的 变异 ,不 论 是 在 模 截 面 数 据 中 ,还 
是 在 时 间 序 列 数 据 中 。 例 如 ,牛肉 消费 的 每 周平 均值 很 可 能 是 正 的 ,而 且 光 清 弯 
动 , 然 而 ,在 给 定 的 周 里 ,个 体 家 庭 往往 可 以 为 零 , 而 且 有 时 可 以 转变 为 正 值 。 由 女 
工人 提供 的 工作 小 时 平均 值 不 可 能 是 零 ,但 是 ,许多 个 体 妇 女 具 有 零工 作 市 场 小 时 
数 ( 角 点 解 ) ,而 在 她 们 的 劳动 市 场 历史 过 程 中 ,在 其 他 时 间 上 却 转变 为 正 什 。 家 诗 
假期 开支 平均 值 通 常 是 正 值 ,但 在 给 定年 份 中 ,许多 个 体 家 庭 假 期 开 文 具有 和 零 仁 。 
烟草 制品 人 均 消 费 通 常 是 正 值 ,但 是 总 体 中 的 许多 个 体 从 不 消费 这 些 产品 ,而 且 将 
永远 不 考虑 价格 与 收入 因素 。 如 同 帕 德 尼 (Pudney，1989) 所 发 现 的 ,微观 数据 表 
现 出 “遗漏 .扭曲 与 角 点 ”。 遗 漏 对 应 于 没有 参加 关注 活动 ,扭曲 对 应 于 转换 行为 ， 
而 角 点 则 对 应 于 在 特定 时 点 上 没有 消费 或 没有 参与 。 也 就 是 说 , 啊 应 的 离散 性 与 
非 线 性 是 微观 经 济 计量 学 所 固有 的 。 

微观 经 济 计量 学 中 ， 类 重要 的 非 线性 模型 研究 受 限 因 变 量 (limited depend- 
ent variables)[ 马达 拉 (Maddala，1983) ]。 这 类 模型 包括 许多 模型 ,对 于 分 析 离 散 
响应 与 带 有 受 限 变化 范围 的 响应 来 说 ,提供 了 一 种 合适 的 框架 。 当 然 ,对 于 分 析 安 
观 数据 来 说 ,如 果 需 要 的 话 ,这 种 分 析 工 具 还 是 可 以 利用 的 。 其 要 点 是 ,它们 是 微 
观 经 济 计量 学 中 必 不 可 少 的 ,而 且 展 示 出 其 独特 的 性 质 。 


1.2.2 更 加 现实 主义 


有 时 ,宏观 经 济 计 量 学 (macroeconometrics) 是 建立 在 强 假 设 基 础 之 上 的 ;代表 
性 行为 人 假设 就 是 一 个 重要 事例 。 时 常 要 求 微观 经 济 推理 去 判断 实证 结果 的 某 些 
设 定 与 解释 是 正确 的 。 然 而 ,几乎 不 可 能 说 出 ,它们 是 如 何以 显 性 方式 受到 对 时 间 
与 微观 单元 汇总 的 影响 ;否则 ,可 做 出 非常 极端 的 汇总 假设 。 例 如 ,汇总 第 说 成 是 
可 以 反映 出 假定 的 代表 性 行为 的 行为 。 
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从 微观 经 济 理 论 观点 来 说 ,与 建立 在 汇总 数据 上 的 那些 数量 分 析 相 比 ,建立 在 
微观 数据 上 的 数据 分 析 , 被 认为 更 具有 现实 性 。 判 断 这 一 陈述 正确 有 三 个 理由 。 
第 一 ,在 这 种 假设 下 ,所 设计 的 变量 测量 常常 更 为 直接 (尽管 不 一 定 无 测量 误差 )， 
而 且 更 对 应 所 要 检查 的 理论 。 第 二 ,关于 经 济 行为 的 假设 ,通常 是 从 个 体 行为 理论 
中 发 展 出 来 的 ,如 采 这 些 假设 是 利用 汇集 数据 进行 检验 ,那么 就 可 以 做 出 许多 近似 
和 简化 假设 。 这 种 代表 性 行为 的 简化 假设 导致 信息 大 量 损失 , 且 严 重地 限制 了 实 
证 研究 的 范围 。 由 于 微观 经 济 计量 学 可 以 避免 这 类 假设 ,而 且 原 则 上 常常 如 此 ,所 
以 微观 数据 提供 了 更 加 现实 的 用 于 检验 微观 经 济 假设 的 框架 。 这 并 不 是 声称 一 定 
要 在 实证 研究 工作 中 得 到 微观 数据 。 需 对 这 种 陈述 进行 逐一 判断 。 最 后 ,经 济 活 
动 的 现实 摘 绘 应 该 提供 作为 个 体 异 质 性 后 果 的 广泛 结果 及 响应 ,并且 可 以 通过 基 
本 理论 进行 预测 。 在 这 个 意义 上 ,微观 经 济 数据 集 能 支持 更 现实 的 模型 。 

微观 经 济 计量 数据 经 常 是 从 住户 或 厂商 调 查 中 得 到 的 ,一般 包含 广泛 的 行为 ， 
其 中 的 许多 行为 结果 采用 离散 或 分 类 形式 。 这 种 数据 集 具 有 许多 难以 处 理 的 特 
性 ,要 求 在 用 公式 表示 和 和 分析 它们 时 使 用 特殊 工具 ,虽然 宏观 经 济 计量 研究 中 并 不 
完全 缺乏 这 种 情况 ,然而 ,特殊 工具 仍然 没有 得 到 广泛 使 用 。 


1.2.3 更 多 信息 内 众 


如 果 微 观 数据 集 具有 信息 价值 ,那么 微观 数据 集 的 潜在 优点 就 可 以 实现 。 巾 
于 样本 调查 经 常 提供 成 千 上 万 个 模 截 面 单元 的 独立 观测 值 ,而 通常 为 高 度 序列 相 
关 的 标准 宏观 时 间 序 列 一 般 至 多 由 几 百 个 观测 值 构 成 ,与 之 相 比 ,前 者 更 具有 信息 
价值 。 

如 同 下 一 章 将 要 解释 的 ,由 于 微观 数据 可 能 具有 相当 大 的 噪声 ,实践 中 的 情况 
并 不 能 如 此 丢掉 。 在 个 体 层 面 上 ,许多 (特质 的 ) 因 素 在 决定 响应 时 起 着 很 大 的 作 
用 。 这 些 因 素 和 常常 是 不 能 观测 到 的 ,导致 人 们 在 随机 成 分 标题 下 对 它们 加 以 处 理 ， 
有 具有 相当 大 的 观测 变异 部 分 。 在 此 意义 上 ,随机 性 在 微观 数据 中 具有 更 大 的 作用 。 
当然 ,这 会 影 啊 到 回归 的 拟 合 优 度 测算 。 最 初 ,通过 汇总 时 间 序 列 分 析 探 索 经 济 计 
量 学 的 大 学 生 , 经 常 以 看 到 大 的 R’ 值 为 条 件 , 当 初次 过 到 横 截 面 回归 时 ,他 们 对 回 
归 方 程 的 “ 低 解 释 能 力 ” 会 表现 出 失望 或 惊讶 。 然 而 ,存在 着 强 假 设 , 即 至 少 在 某 个 
范围 内 ,很 大 的 微观 数据 集 具 有 很 高 的 信息 价值 。 

另外 一 个 限制 条 件 是 , 当 人 们 研究 纯 模 截面 数据 时 ,几乎 很 少 能 对 所 研究 的 跨 
时 关系 方面 讲 些 什么 。 这 种 特殊 行为 能 够 利用 面板 数据 和 过 渡 数 据 加 以 研究 。 

在 特殊 情况 下 ,人 们 在 某 种 特定 的 经 济 环境 下 ,对 特定 经 济 行为 人 的 群体 行为 
响应 感 兴趣 。 一 个 事例 是 失业 保险 对 青年 失业 者 的 工作 搜寻 行为 的 影响 。 另 一 个 
事例 是 ,接受 收入 保障 金 的 低 收 入 个 体 对 劳动 力 供给 的 啊 应 。 除 非 使 用 微观 数据 ， 
否则 这 类 问题 在 实证 工作 中 不 能 直接 加 以 讨论 。 


1.2.4 微观 经 省 基础 


在 不 同 的 经 济 理论 中 ,经 济 计量 模型 所 起 的 作用 是 不 同 的 。 在 有 模型 的 情况 
下 ,先前 的 理论 在 对 模型 进行 设 定 和 选择 估计 方法 时 起 着 支配 作用 。 而 在 男 一 种 
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实证 研究 情况 下 , 却 很 少 使 用 经 济 理论 。 

在 第 一 种 情况 下 ,分 析 的 目的 是 要 识别 和 估计 那 种 刻 还 个 体 的 口味 与 候 好 以 
及 /或 技术 关系 的 基本 参数 ,有 时 称 之 为 深 参数 。 作 为 一 种 简称 ,我 们 将 这 一 方法 
称 为 结构 方法 (structurail approach) 。 其 特点 紧密 地 依赖 于 经 济 理论 ,并 强调 因果 
推断 。 这 种 模型 需要 许多 假设 ,例如 ,对 成 本 肾 数 或 生产 函数 进行 准确 设 定 ,或 对 
误差 项 分 布 进行 设 定 。 运 用 这 种 方法 的 实证 结论 在 背离 假设 的 情况 下 是 不 稳健 
的 。 在 2.4.4 节 ,我 们 会 更 多 地 谈 及 此 方法 。 现 在 ,我 们 直接 强调 ,如 果 结 构 方 法 
可 利用 汇总 数据 加 以 实施 , 它 只 在 非常 严格 的 (而 且 可 能 不 现实 的 ) 条 件 下 得 到 基 
本 参数 的 估计 值 。 微 观 数据 集 为 结构 方法 提供 了 更 有 前 途 的 环境 ,因为 在 模型 设 
定 中 ,本 质 上 允许 它们 更 具有 灵活 性 。 

在 第 二 种 情况 下 ,分析 的 目的 是 在 变量 由 研究 者 给 定 或 为 外 生变 量 的 条 件 下 ， 
对 所 关注 的 响应 变量 之 间 的 关系 进行 建 模 。 内 生性 Cendogeneity) 或 外 生性 (exoge- 
neity) 的 更 正式 定义 将 在 第 2 章 给 出 。 作 为 一 种 简 记 和 名称, 我 们 将 这 一 方法 称 为 徇 
化 式 方法 (reduced form approach)。 其 基本 思想 是 ,简化 式 分 析 并 不 总 是 考虑 所 有 
因果 的 相互 依存 。 这 种 回归 模型 关注 于 给 定 回 归 元 x 对 y 的 预测 ,而 不 是 关注 于 
回归 参数 的 因果 解释 ,这 常常 称 为 简化 式 回 归 。 如 同 在 第 2 章 将 要 阐述 的 ,简化 式 
模型 的 参数 通常 是 结构 参数 的 隐 数 。 如 果 没 有 结构 参数 的 某 种 信息 ,它们 就 不 是 
可 解释 的 。 


1.2.5 非 汇 已 与 蜡 质 人 性 


有 时 ,据说 宏观 经 济 计量 学 的 问题 和 争论 来 自 宏观 时 间 序 列 的 序列 相关 ,而 微 
观 经 济 计 量 学 的 问题 和 争论 则 出 自 个 体 水 平 数据 的 异 质 性 。 在 许多 微观 经 济 计量 
分 析 中 ,尽管 这 是 对 努力 建 模 的 良好 刻画 ,但 是 它 需 要 加 强 , 并 且 受 限于 重要 的 
限制 条 件 。 在 微观 经 济 计量 模型 中 ,对 动态 相依 性 进行 建 模 或 许 是 一 个 重要 的 
问题 。 

非 汇总 的 好 处 已 在 本 节 前 面 强调 过 ,但 是 , 它 要 付出 代价 ;因为 数据 越 是 非 汇 
总 的 , 则 对 个 体 问题 的 异 质 性 加 以 控制 就 越发 重要 。 异 质 性 ,或 者 更 准确 地 讲 为 不 
可 观测 的 异 质 性 ,在 微观 经 济 计 量 学 中 起 着 非常 重要 的 作用 。 显 然 , 反 映 个 体 间 腊 
质 性 的 许多 变量 ,诸如 性 别 、 民 族 , 教 育 背 景 、 社 会 以 及 人 口 因素 都 是 直接 可 观测 
的 ,从 而 对 它们 能 够 加 以 控制 。 与 之 相 比 ,个 体 的 动机 、 能 力 、 智 力 等 方面 的 差异 或 
者 是 不 可 观测 的 ,或 者 充其量 也 不 过 是 不 完全 可 观测 的 。 

最 简单 的 反应 就 是 忽略 这 种 异 质 性 ,即将 其 并 入 回归 扰动 之 中 。 这 毕 竞 是 人 
们 如 何 处 置 无 数 多 个 很 小 的 不 可 观测 因素 的 方法 。 当 然 , 这 一 步 会 增加 变异 的 未 
解释 部 分 。 更 严重 的 是 ,一 旦 忽视 持久 的 个 体 差异 ,将 会 导致 与 其 他 作为 持久 的 个 
体 间 差异 来 源 的 因素 相 混 淆 (confounding)。 在 关注 的 变量 中 ,对 差异 而 言 ,如 采 不 
同 的 回归 元 (预测 元 变量 ?的 个 体 贡献 不 能 在 统计 形式 上 得 以 分 离 , 就 会 发 生 混 消 。 
例如 ,假定 把 因素 x1( 受 教育 ) 说 成 是 y( 收 入 ) 的 变异 来 源 , 而 男 一 个 变量 xz (能 力 ) 
作为 变异 的 其 他 来 源 并 没有 出 现在 模型 中 。 于 是 ,总 变异 中 归 因 于 第 二 个 变量 的 
那 一 部 分 ,被 错误 地 归 因 于 第 一 个 变量 。 从 直观 上 讲 ,它们 的 重要 性 被 混淆 了 。 泥 
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消 偶 倚 的 重要 来 源 是 从 模型 中 不 正确 地 省 略 回归 元 ,并 且 包 括 代 表 省 略 变量 的 其 
他 变量 。 

例如 ,考察 下 述 情况 ,在 带 有 回归 元 回 量 x 的 回归 均值 琐 数 中 ,包括 项 目 参 与 
(0/1 虚拟 ?变量 D，; 


y=xX OtaDtu (1 1) 


其 中 ,w 表示 误差 项 。“ 处 理 ”(treatment, 又 称 干预 ) 这 一 术语 用 于 生物 或 实验 科学 
之 中 ,表示 涉及 某 实验 中 参与 者 的 实施 方式 。 在 经 济 计量 学 中 , 它 通 常 是 指 ,参与 
某 一 项 可 以 影响 到 关注 结果 的 活动 。 这 项 活动 可 以 随机 指派 参与 者 ,也 可 以 由 参 
与 者 自己 选择 。 因 此 ,尽管 众所周知 ,个 人 选择 其 自己 的 受 教育 年 数 ,但 人 们 还 是 
将 受 教育 年 数 看 成 是 “处 理 ” 变 量 。 假 定 项 目 参 与 被 设 为 离散 变量 。“ 处 理 变量 ”的 
系数 a 测算 以 协 变量 为 条 件 的 项 目 参 与 CD=1) 的 平均 影响 ,如 果 人 们 不 控制 不 可 
观测 的 异 质 性 , 则 潜在 的 模棱两可 性 会 影响 到 对 结果 的 解释 。 如 果 发 现 忆 具有 显 
著 影 响 ,那么 会 产生 下 述 问题 :因为 万 与 某 些 影响 y 的 不 可 观测 变量 是 相关 的 ,或 
者 在 DD 与 y 之 间 存 在 因果 关系 ,那么 a 会 显著 地 异 于 0 吗 ? 例如 , 当 所 考虑 的 项 目 
是 大 学 教育 ,并 且 协 变量 不 包括 能 力 的 测量 ,要 给 出 一 种 完全 的 因果 解释 就 会 受到 
质疑 。 因 为 这 一 争论 很 重要 ,所 以 应 该 更 多 地 关注 如 何 控制 异 质 性 。 

在 一 些 涉及 动态 考虑 的 情况 下 ,可 利用 的 数据 类 型 或 许 会 限制 人 们 如 何 控制 
异 质 性 。 考 察 两 个 住户 ,除了 其 中 一 个 表现 出 更 偏好 于 消费 商品 A 之 外 ,其 余 的 
方面 都 一 样 。 人 们 可 以 通过 允许 个 人 效用 函数 包含 反映 他 们 不 同 偏好 的 异 质 性 
参数 来 对 此 加 以 控制 。 现 在 ,假定 存在 一 种 消费 者 行为 理论 , 它 声称 消费 者 偏好 商 
品 A, 在 此 意义 下 ,消费 者 在 一 个 时 期 里 消费 它 越 多 , 则 消费 者 在 未 来 消费 它 也 越 
多 的 可 能 性 就 越 大 。 这 种 理论 提供 了 对 商品 A 消费 的 持久 个 体 间 差异 的 另外 一 
种 解释 。 一 旦 对 蜡 质 性 偏好 加 以 控制 ,检验 消费 中 哪 一 种 持久 性 来 源 一 一 异 质 性 
偏好 或 嗜好 一 一 可 以 解释 各 种 不 同 消费 模式 就 成 为 可 能 。 每 当 在 可 观测 的 结果 中 
某 个 动态 元 素 产生 了 持久 性 , 便 出 现 这 类 问题 。 这 类 问题 的 几 个 事例 在 本 书 中 的 
不 同 地 方 都 出 现 过 。 

对 异 质 性 进行 建 模 的 一 系列 方法 ,在 微观 经 济 计量 学 中 同时 并 存 。 对 其 中 的 
一 些 将 会 简要 提 及 ,而 详细 内 容 则 推迟 到 后 面 阐述 。 

一 种 极端 的 求解 是 忽略 掉 全 部 不 可 观测 的 个 体 间 差异 。 如 果 不 可 观测 的 异 质 
性 与 可 观测 的 异 质 性 是 不 相关 的 ,并 且 如 果 所 研究 的 结果 没有 时 期 间 的 相依 性 ,就 
不 会 产生 上 述 问 题 。 当 然 , 存 在 一 些 强 假设 ,并 且 甚 至 满足 这 些 假设 ,不 是 所 有 的 
经 济 计量 困难 都 会 消失 。 

处 理 异 质 性 的 一 种 方法 是 把 它 看 作 固 定 效应 (fixed effect) ,并 把 它 估计 成 个 体 
特定 0/1 虚拟 变量 的 系数 。 例 如 ,在 横 截 面 回归 中 ,允许 每 一 个 微观 单元 拥有 上 自己 
的 虚拟 变量 ( 截 距 )。 因 为 当 样 本 添加 一 个 新 个 体 时 ,也 会 增加 一 个 新 的 截 距 参 数 ， 
所 以 这 会 造成 参数 急剧 增多 ,因此 , 如果 我 们 的 数据 都 是 横 截 面 的 ,那么 这 一 方法 
将 不 起 作用 。 当 可 以 利用 每 一 个 个 体 单 元 的 多 重 观测 值 时 ,最 普遍 的 形式 是 对 N 
个 横 截 面 单元 的 每 一 个 都 具有 工 个 时 间 序 列 观测 值 的 面板 数据 ,例如 ,如 打 模 型 


8.…… 





加 


是 线性 的 , 且 辕 定 效应 是 可 加 的 ,通过 一 阶 差分 来 估计 固定 效应 或 者 剔除 固定 效应 
驶 是 可 行 的 。 如 采 模 型 是 非 线性 的 ,并 且 固 定 效应 通常 不 是 可 加 的 ,就 需要 考虑 其 
他 的 一 些 方法 。 

对 不 可 观测 异 质 性 进行 建 模 的 第 二 种 方法 是 ,通过 随机 效应 (random effects) 
模型 来 建 模 。 随 机 效应 模型 拥有 许多 不 同 的 公式 表述 方法 。 一 种 流行 的 公式 是 假 
定 一 个 或 多 个 回归 参数 ,常常 是 回归 截 距 , 对 于 不 同 的 横 截 面 会 随机 变化 。 在 另 一 
种 公式 中 ,回归 误差 是 给 定 的 分 量 结 构 含 有 特定 个 体 的 随机 成 分 。 然 后 ,随机 效应 
模型 企图 从 那 种 推导 出 的 随机 成 分 中 去 估计 分 布 参数 。 在 一 些 情况 下 , 比如 需求 
分 析 ,随机 项 可 以 被 解释 成 为 随机 偏好 变异 。 随 机 效应 模型 利用 横 截 面 数 据 或 面 
板 数 据 得 到 估计 。 


1.2.6 动态 符 性 


在 横 截面 分 析 中 ,一 个 非常 普遍 的 假设 是 没有 跨 时 期 相依 性 , 即 缺 少 动态 学 。 
因此 , 它 隐 含 地 假定 ,观测 值 对 应 于 随机 均衡 ,而 对 均衡 的 偏离 则 由 序列 独立 随机 
扰动 来 表示 。 其 至 在 微观 经 济 计量 学 中 ,对 于 某 种 数据 情况 来 说 ,这 样 的 假设 或 许 
太 强 了 。 例 如 , 它 与 序列 相关 不 可 观测 异 质 性 的 人 存在 不 一 致 。 有 关 清 后 因 变 量 的 
相依 性 也 会 违背 此 假设 。 

上 述 讨论 已 经 阐述 单一 模 截 面 分 析 的 一 些 潜在 局 限 性 。 如 果 可 以 利用 重复 的 
模 戳 面 数据 , 束 可 殉 服 一 些 局 限 性 。 然 而 ,如 来 利用 重复 的 模 截 面 数 据 , 那 么 引起 
最 少 争议 的 方法 应 该 是 使 用 面板 数据 为 好 。 


1.3 全 书 概 哆 


全 书 分 成 六 大 部 分 。 第 一 部 分 阐述 微观 经 济 计量 建 模 所 涉及 的 问题 。 第 二 部 
分 和 第 三 部 分 阐述 非 线 性 回归 模型 的 售 计 及 统计 推断 的 一 般 性 理论 。 第 四 部 分 和 
第 五 部 分 分 别 专门 研究 应 用 微观 经 济 计量 学 中 使 用 的 核心 模型 ,这 里 既 有 横 截面 
模型 ,又 有 面板 数据 模型 。 第 六 部 分 秋 善 比较 广泛 的 专题 ,大 部 分 要 利用 前 面 一 些 
章节 所 痢 述 的 内 容 。 

本 书 内 容 概览 如 表 1. 1 所 示 。 本 市 将 依次 详 述 每 个 部 分 。 


1.3.1 筑 一 部 分 : 预备 知识 


第 2 章 和 第 3 章 对 微观 经 济 计量 (microeconometric) 的 建 模 方法 特性 ,以 及 处 
于 更 一 般 统 计 领 域 回 归 分 析 中 的 微观 经 济 数 据 结 构 (microeconomic data struc- 
tures) 展开 讨 论 。 全 书 自始至终 地 对 这 两 章 中 所 出 现 的 许多 问题 进行 不 断 深入 探 
讨 , 以 便 为 读者 开发 一 些 必要 的 工具 。 
1.3.2 第 二 部 分 : 核心 方法 


第 4 章 一 第 10 章 详 述 经 典 估计 和 统计 推断 中 使 用 的 重要 的 一 般 方 法 。 特 别 
是 ,第 5 章 给 出 的 结果 广泛 地 应 用 于 全 书 。 


, Q ...... 
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表 1.1 全 书 概览 
部 分 及 章节 背景 ” 事 例 

一 、 预 备 知识 

1. 概述 一 

2. 因果 模型 与 非 因果 模型 一 联 立 方程 模型 

3. 微观 经 济 数据 结构 一 观测 数据 
二 、 核 心 方 法 

4. 线性 模型 一 普通 最 小 二 乘法 

5, 极 大 似 然 法 与 非 线 性 最 小 二 乘法 估计 一 m 估计 或 极 值 估 计 

6. 广义 矩 方 法 与 系统 估计 5 工具 变量 

7. 假设 检验 5 沃 尔 德 得 分 以 及 似 然 比 检验 

8. 设 定 检验 与 模型 选择 5.7 ， 条件 矩 检 验 

9. 半 参 数 方法 一 核 回 归 

10. 数值 最 优化 5 牛顿 一 拉夫 和 森 和 迭代 法 
三 、 基 于 模拟 的 方法 

11. 自助 法 7  ” 百 分 位 数 二 方法 

12. 基于 模拟 的 方法 5 极 大 模拟 似 然 

13. 贝 叶 斯 方法 一 马尔 可 夫 链 蒙特 卡 罗 


四 、 横 截面 数据 模型 


14. 
15. 
16. 
17. 
18. 
19. 
20. 


二 值 结果 模型 

Tobit 模型 与 选择 模型 

过 法 数据 :生存 分 析 

混合 模型 与 不 可 观测 异 质 性 
多 重 风 险 模 型 

计数 数据 模型 


五 、 面 板 数 据 模型 
21. 线性 面板 模型 :基础 
22. 线性 面板 模型 :扩展 
23， 非 线性 面板 模型 
六 、 深 入 专题 
24， 分 层 样 本 与 整 群 样本 


25. 
. 测量 误差 模型 
27. 


26 


处 理 评估 


缺失 数据 与 估算 


6.21] 


logit,， 关于 y 一 (0，1) 的 probit 

关于 y 二 (1,，…， mm) 的 多 项 式 logit 
关于 y 二 max(y*, 0) 的 Tobit 

关于 y 一 min( 交 ,ce) 的 考 克 斯 比例 风险 
不 可 观测 异 质 性 

多 重 风 险 

3 一 0, 1 2,… 泪 松 模型 


固定 效应 与 随机 效应 
动态 与 内 生 回 归 元 


5、6、21、22 面板 logit .Tobit 以 及 泊 松 模型 


对 于 不 同 的 j ,数据 (y; ，xsj ) 相 关 
如 果 参 与 项 目 , 回 归 元 d=1 

天 有 观测 误差 的 logit 模型 

带 有 缺失 观测 值 的 回归 


"背景 给 出 了 除 第 4 章 普 通 最 小 二 乘法 和 加 权 最 小 二 乘法 处 理 之 外 所 需要 的 基础 章节 。 注 


意 , 第 一 个 面板 数据 章 ( 第 21 章 ) 仅 要 求 第 4 章 的 内 容 。 


第 4 章 曾 述 线性 回归 模型 Jinear regression model) 的 一 些 结果 ,强调 与 本 书 其 
余 内 容 最 相关 的 那些 问题 和 方法 。 相 对 来 说 ,这 种 分 析 直 接 且 简单 ,因为 线性 模型 
估计 量 存 在 着 显 性 表达 式 , 辟 如 普通 最 小 二 乘法 ， 


学 和 本 


第 5 章 和 第 6 章 曾 述 能 用 于 估计 量 通 常 没有 显 性 解 的 那些 非 线 性 模型 上 的 估 
计 理 论 (estimation theory)。 渐 近 理论 可 用 于 获得 估计 量 的 分 布 ,着 重 于 获得 依赖 
相对 弱 分 布 假设 的 稳健 误差 佑 计 值 。 第 5 章 闻 述 相 当 一 般 的 估计 人 处理 和 专门 化 的 
非 线 性 最 小 二 乘法 ,以 及 极 大 似 然 估计 。 第 6 章 分 别 给 出 更 富有 挑战 性 的 广义 失 
方法 估计 量 以 及 专门 化 的 工具 变量 估计 。 

第 7 章 曾 述 当 估计 量 关 于 参数 是 非 线 性 的 以 及 所 要 检验 的 假设 关于 参数 可 能 
是 非 线性 的 时 候 , 对 经 典 假设 进行 检验 (classical hypothesis testing) 。 设 定 检 验 
(specification tests) 和 假设 检验 是 第 8 章 的 主题 。 

第 9 和合 阐 述 半 参数 们 计 (semiparametric estimation) 方 法 ,譬如 核 回 归 。 重 要 
的 事例 是 对 条 件 均值 的 灵活 建 模 。 对 于 专利 事例 而 言 , 非 参 数 回 归 模 型 是 E[y|xj]= 
g(Cz) ,其 中 , 国 数 g(*) 表 示 未 设 定 的 ,并 且 要 用 估计 和 值 来 代替 。 于 是 ,估计 具有 无 
限 维 成 分 8()， 从 而 导致 了 非 标准 渐 近 理论 。 就 另外 的 回归 元 来 说 ,这 需要 某 种 
进一步 的 结构 , 称 这 种 方法 为 半 参 数 的 或 者 半 非 参数 的 。 

第 10 章 曾 述 当 估计 量 是 以 隐 性 方式 定义 的 ,经 常 作 为 茶 些 一 阶 条 件 的 解 时 ， 
可 用 于 计算 参数 估计 值 的 计算 方法 (computational methods) 。 


1.3.3 第 三 部 分: 基于 槛 拟 前 方法 


第 11 章 一 第 12 章 考 察 依 赖 模拟 的 估计 和 推断 的 方法 。 这 些 方 法 通常 更 为 密 
集 计 算 , 与 第 二 部 分 所 阐述 的 方法 相 比 ,这 些 方法 当前 很 少 被 应 用 。 

第 11 章 曾 述 用 于 统计 推 斯 的 自助 法 ‘17(bootstrap method) 。 借 助 于 模拟 获得 
新 样本 ,例如 ,通过 从 最 初 样本 中 重复 进行 放 回 再 抽样 ,就 会 产生 佑 计量 的 经 验 分 
布 。 当 从 渐 近 理论 得 出 的 公式 很 复杂 时 , 目 助 法 能 提供 一 种 简单 获得 标准 误差 的 
方法 ,就 如 同 某 种 两 步 估计 量 的 情况 。 进 一 步 地 ,如 果实 施 恰当 ,那么 自助 法 会 导 
致 小 样本 的 统计 推断 。 

第 12 章 阐 述 基 于 模拟 估计 方法 (simulation-based estimation methods) ,这 会 涉 
及 对 不 存在 团 型 解 的 概率 分 布 进行 积分 的 那 类 模型 。 通 过 从 有 关 分 布 与 平均 所 做 
出 的 多 重 推 靳 来 进行 估计 还 是 可 能 的 。 

第 13 草 曾 述 贝 叶 斯 方法 (Bayesian methods) ,把 观测 到 的 数据 分 布 与 参数 的 
设 定 先 验 分 布 结合 起 来 ,获得 作为 估计 基础 的 参数 的 后 验 分 布 。 尽 管 后 验 分 布 不 
存在 团 型 解 ,但 最 近 进 展 使 得 计算 其 解 成 为 可 能 。 贝 叶 斯 分 析 能 够 提供 与 经 典 方 
法 大 不 相同 的 用 于 估计 与 推断 的 方法 。 然 而 ,在 许多 情况 下 ,只 有 贝 叶 斯 工具 箱 才 
能 对 其 他 方法 难以 解决 的 问题 进行 估计 和 推断 。 


1.3.4 筑 四 前 分 : 碳 坊 面 数 据 模 型 


第 14 章 一 第 20 音 阐 述 横 截 面 数 据 (cross-section data) 的 主要 非 线性 模型 。 这 
一 部 分 是 本 书 的 核心 ,同时 阅 述 一 些 高 等 专题 ,譬如 受 限 因 变 量 模型 与 样本 选择 。 
这 类 模型 是 通过 因 变 量 取 值 范围 来 定义 的 。 


LC1J] 又 称 自 举 .再 抽样 。 一 一 译 者 注 
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第 14 章 提供 了 因 变 量 仅仅 能 取 两 个 可 能 值 一 一 譬如 取 y= 二 0 或 y= 二 1 一 一 的 
二 值 数据 (binary data) 模 型 。 第 15 章 阐 述 对 因 变 量 取 几 个 离散 值 的 多 项 式 (mul- 
tinomial) 模 型 ,这 是 对 上 一 章 内 容 的 扩展 。 一 些 事 例 包 括 就 业 状 况 ( 就 业 、 失 业 和 
非 郁 动力 ) 以 及 上 下 班 所 选 的 交通 方式 (小 汽车 .公交 车 或 火车 ) 。 线 性 模型 可 以 提 
供 信息 , 却 并 不 恰当 ,因为 线性 模型 能 产生 单位 区 间 以 外 的 预测 概率 值 。 相 反 ,要 
使 用 logit .probit 以 及 其 他 有 关 的 模型 。 

第 16 章 曾 述 带 有 删 失 (censoring)、 截 取 (truncation)、 样 本 选择 (sample 
selection) 的 一 些 模 型 。 一 些 事例 包括 以 选择 工作 为 条 件 的 年 度 工 作 小 时 数 , 还 有 
以 住院 治疗 为 条 件 的 医院 开销 。 在 这 些 情况 下 ,数据 在 y= 二 0 时 是 一 组 不 完全 观测 
到 的 观测 值 , 而 且 在 y 之 0 时 仍旧 如 此 。 可 以 证 明 ,即使 基本 过 程 是 线性 的 ,但 这 样 
观测 到 数据 的 模型 是 非 线 性 的 ,而 且 关 于 观测 到 数据 的 线性 模型 可 以 使 人 严重 产 
生 误 解 。 对 删 失 、 截 取 或 者 样本 选择 的 简单 纠正 ,比如 Tobit 模型 ,都 是 存在 的 ,但 
是 ,这 些 却 非 党 依赖 于 分 布 假设 。 

持续 期 限 数据 (duration data) 模 型 将 在 第 17 章 一 第 19 章 加 以 阐述 。 其 中 一 
个 事例 就 是 失业 时 段 的 长 短 。 标 准 回归 模型 包括 指数 模型 威 布 模型 以 及 考 克 斯 
比例 风险 模型 。 附 带 说 一 句 , 如同 第 16 章 一 样 , 因 变量 经 常 是 不 完全 观测 到 的 。 
例如 ,处 于 当前 时 段 长 度 的 数据 就 是 不 完全 的 ,而 不 是 完全 时 段 的 长 度 。 

第 20 章 曾 述 计 数 数据 (count data) 模 型 。 一 些 事 例 包括 对 健康 的 各 种 测量 ， 
例如 ,医生 出 诊 次 数 以 及 住院 天 数 。 该 模型 又 是 非 线性 的 ,因为 条 件 均 值 都 是 非 负 
的 。 重 要 的 参数 模型 包括 泊 松 模型 和 负 二 项 式 模 型 。 


1.3.5 第 五 部 分 : 面 态 数据 模型 


第 21 章 一 第 23 章 阐 述 面 板 数据 (panel data) 方 法 。 这 里 ,对 于 样本 中 众多 个 
体 的 每 一 个 而 言 ,一 系列 时 期 的 数据 都 是 可 观测 的 ,因此 , 因 变 量 与 回归 元 既 要 标 
记 个 体 , 又 要 标记 时 间 。 对 于 给 定 个 体 来 说 ,任何 分 析 都 需要 控制 不 同时 期 中 误差 
项 的 可 能 正 相 关 。 附 带 讲 一 句 ,面板 数据 能 提供 充足 的 数据 来 控制 不 可 观测 的 特 
定 个 体 的 常 值 效应 ,与 仅 可 利用 横 截 面 时 所 需要 的 那些 假设 相 比 ,在 更 弱 的 假设 
下 ,识别 因果 关系 是 可 能 的 。 

第 21 章 阐 述 基 本 线性 面板 数据 模型 ,着 重 于 固定 效应 (fixed effects) 模 型 和 随 
机 效应 (random effects) 模 型 。 第 22 章 曾 述 允 许 澡 后 因 变 量 与 内 生 回 归 元 对 线性 
模型 的 扩展 。 第 23 草 曾 述 有 关 第 四 部 分 中 非 线 性 模型 的 面板 方法 。 

面板 数据 方法 放 在 本 书后 面 ,这 是 为 了 提供 一 种 统一 独立 目 足 式 的 处 理 。 第 
21 人 草本 可 以 放 在 第 4 章 后 面 ,只 要 有 最 小 二 乘法 估计 的 内 容 , 就 可 以 将 其 阐述 得 
通俗 易 懂 ，。 


1.3.6 第 六 部 分 : 次 入 专题 


这 一 部 分 考察 与 第 四 部 分 和 第 五 部 分 通常 有 关 的 全 部 模型 的 重要 专题 。 第 
24 章 人 研究 对 几 种 不 同 模 型 中 整 群 数据 的 建 模 。 第 25 章 讨论 处 理 评 佑 。 处 理 评 佑 
是 一 个 一 般 性 术语 , 它 涵盖 一 系列 关注 于 某 种 处理 " 影 啊 测量 的 广泛 的 模型 ,其 中 


的 处 理 不 是 以 外 生 方式 就 是 以 随机 方式 指派 给 某 个 关注 测量 的 个 体 的 , 记 为 “结果 
变量 ”。 第 26 章 研 究 绪 果 变量 和 /或 回归 元 变量 上 的 测量 误差 的 后 果 , 者 重 于 东 些 
重要 的 非 线 性 模型 。 第 27 章 考 察 某 些 处 置 线性 和 非 线 性 回归 模型 中 缺失 数据 的 
方法 。 


1.4 如 何 使 用 本 书 


本 书 假定 读者 已 具备 对 和 矩阵 代数 线性 回归 模型 的 基本 认识 。 与 格林 (Greene， 
2003) 的 书 相 比 , 本 书写 作 定 位 于 博士 生 一 年 级 后 续 课 程 的 数学 水 准 上 。 

尽管 本 书 的 一 些 内 容 已 涵盖 一 年 级 后 续 课 程 ,但 其 大 部 分 内 容 看 起 来 像 经 济 
学 博 十 生 二 年 级 课程 ,或 者 是 以 数据 为 导向 的 微观 经 济 学 领域 课程 , 壁 如 劳动 经 济 
学 公共 经 济 学 或 者 行业 组 织 学 。 本 书 既 可 用 于 经 济 计 量 学 教材 ,又 可 用 于 此 领域 
课程 的 补充 读物 。 更 一 般 地 讲 , 本 书目 的 旨 在 作为 经 济 学 .有 关 的 社会 科学 一 一 比 
如 社会 学 .政治 科学 以 及 流行 病 学 一 一 领域 中 应 用 研究 者 的 有 益 参 考 书 。 

对 于 利用 本 书 作 为 参考 书 的 读者 来 说 ,许多 模型 章节 尽 可 能 写成 独立 式 的 。 
对 于 第 四 部 分 和 第 五 部 分 所 阐述 的 特定 模型 而 言 ,除了 必须 掌握 第 5 章 和 第 6 章 
中 在 某 些 情况 下 的 一 般 估 计 结 果 之 外 ,以 独立 方式 阅读 有 关 章 节 通 和 常 就 足够 了 ，。 
相当 多 的 章节 是 从 易于 广大 读者 理解 的 讨论 和 例题 开始 的 。 
对 于 利用 本 书 作为 课程 教材 的 教员 来 说 ,最 好 是 尽 可 能 早 地 略 过 许多 方法 性 
章节 ,引进 基本 的 非 线性 横 截 面 或 线性 面板 数据 。 第 14 章 一 第 16 章 壮 述 最 普通 
使 用 的 非 线 性 横 截面 模型 ,这 些 都 需要 第 5 章 所 阐述 的 极 大 似 然 与 最 小 二 乘法 估计。 
第 21 章 的 线性 面板 数据 模型 甚至 需要 更 少 的 预备 知识 ,基本 上 只 需 第 4 章 的 知识 。 

表 1. 2 提供 了 在 加 利 福 尼 亚 大 学 戴 维 斯 为 二 年 级 研究 生 做 半 学 期 课程 教学 的 
提纲 。 一 个 学 期 可 提供 足够 多 的 时 间 涵 盖 这 个 提纲 前 面 一 半 章 节 中 给 出 的 基本 结 
果 。 如 果 还 有 时 间 , 人 们 能 够 更 进一步 深入 研究 涵盖 第 11 章 一 第 13 章 一 部 分 密 
集 计 算 的 估计 方法 (基于 模拟 的 估计 、 自 助 法 ,这 曾 在 第 7 章 简 略 地 曾 述 过 ,还 有 贝 
叶 斯 方法 ) ;另外 ,第 17 章 一 第 20 章 阅 述 横 截面 模型 (持续 期 限 和 计数 ); 此 外 ,第 
22 章 和 第 23 章 给 出 面板 数据 模型 (线性 模型 的 扩展 以 及 非 线性 模型 。 


表 1.2 10 周 20 次 讲座 提纲 








讲座 章 专 题 
1 一 3 4、 附 录 人 线性 模型 和 渐 近 理论 回 古 
4~7 5 估计 :m 估计 .ML 与 NLS 
名 10 估计 :数值 最 优化 
9 一 11 14 、15 模型 .二 值 与 多 项 式 
12~14 16 模型 : 删 失 与 截取 
15 6 信 计 :GMM 
16 7 检验 :假设 检验 
17 一 19 21 模型 :基本 线性 面板 


20 9 估计 : 半 参 数 





微观 经 济 计量 学 


I 


在 印第安 纳 大 学 伯明翰 ,以 15 周 为 一 学 期 的 微观 经 济 计量 学 课程 ,建立 在 第 
四 部 分 和 第 五 部 分 大 多 数 内 容 的 基础 上 。 就 此 课程 而 言 ,其 必 备 条 件 课 程 所 涵盖 
的 内 容 和 第 二 部 分 中 的 相似 。 

在 前 三 章 的 时 论 之 后 ,每 一 章 的 结尾 都 提供 一 些 练习 题 。 这 些 练习 是 边 学 边 
练 的 性 质 : 一 些 习题 纯 粹 是 关于 方法 上 的 ,而 另外 一 些 习 题 则 需要 对 生成 数据 或 实 
际 数据 进行 分 析 。 问 题 的 困难 程度 大 部 分 与 专题 的 困难 程度 有 关 。 


1.5 软 件 


存在 众多 用 于 数据 分 析 的 软件 包 。 流 行 的 、 强 有 力 的 微观 经 济 计量 软件 包 有 
LIMDEP、SAS 以 及 STATA, 所 有 这 些 软件 都 提供 一 种 关于 预先 编制 好 的 程序 的 
广泛 范围 ,而 且 文 持 用 户 利用 算 阵 编程 语言 定义 程序 。 另 外 ,一 些 同 样 被 广泛 使 用 
的 软件 包括 EVIEWS、PCGIVE 以 及 TSP。 尽 管 这 些 软 件 均 是 面向 时 间 序 列 的 ， 
但 它们 能 够 支持 某 种 横 截 面 数据 分 析 。 那 些 希望 自己 编程 的 用 户 还 可 利用 一 系列 
可 供 选 择 的 软件 ,包括 GAUSS、MATLAB、OX 以 及 SAS/IML。 有 关 这 些 软件 包 
的 最 新 详细 信息 以 及 许多 其 他 软件 包 , 能 够 有 效 地 通过 互联 网 浏览 器 和 搜索 引擎 
来 准确 地 寻找 到 。 


1.6 记号 与 习惯 


本 书 广 泛 地 使 用 向 量 与 矩阵 代数 。 

器 量 被 定义 为 列 疝 量 , 并 用 小 写 黑 体 字 母 表 示 。 例 如 ,对 于 线性 回归 而 言 , 回 
归 元 疝 量 x 表示 KX1 维 列 回 量 , 其 第 7 个 元 素 为 xj, 而 参数 向 量 8 表示 列 向 量 ， 
其 第 7 个 元 素 为 B; ,因而 有 : 


] 局 

X 一 | : 且 BG 一 | : 
(KX1) (KX1) 

K K 


于 是 ,线性 回归 模型 y= x 十 遍 文 。 二 "十 BkXk 十 u 可 表示 为 yy 一 X -区 有 时 
候 , 第 i 个 观测 值 要 添加 下 标 i。 于 是 ,第 i 个 观测 值 的 线性 回归 方程 是 : 
y;—=xXiB;+Tu, 
样本 是 N 个 观测 值 {(y;，x;) ,i 二 1,…，N) 的 其 中 之 一 。 在 本 书 中 ,通常 假定 观测 
值 对 于 不 同 的 1 是 独立 的 。 
矩阵 利用 大 写 黑体 字母 来 表示 。 在 矩阵 记号 中 ,样本 表示 成 (y, X) ,其 中 ,y 表 
示 NX1 维 向 量 ,其 第 i 个 元 素 为 y;, 而 关 表 示 第 i 行为 x; 的 矩阵 ,因而 有 : 


V1 XI 

y 二 | :| 上 且 X 一 | : 
(NX1) (Nx dim(x)) / 
YN N 





于 是 ,一 旦 将 所 有 六 个 观测 值 琵 放 在 一 起 , 则 线性 回归 模型 是 : 
y 一 XG 十 u 


其 中 ,u 表示 NX1 维 列 向 量 , 第 :个 元 素 为 xi。 
矩阵 记号 虽 简 洁 , 但 有 时 把 矩阵 的 乘积 写成 向 量 乘 积 之 和 更 为 清楚 。 例 如 ， 
OLS 估计 量 等 价 地 写成 下 述 两 种 方式 之 一 : 


| N 
8 ~ (XX) -1Xy -一 > xx ) > 是 Vi 
1] 二 1 


普通 的 参数 记号 表示 成 gX1 维 向量 。 回 归 参 数 则 利用 天 X1 维 向 量 8 来 表 
示 , 它 可 以 等 于 0, 或 者 是 9 的 子 集 , 这 要 依赖 于 背景 而 定 。 

本 书 使 用 许多 缩写 符号 和 首 子 母 缩 略 词 。 表 1. 3 总 结 出 某 些 常用 估计 方法 所 
使 用 的 缩写 符号 ,它们 依照 估计 量 是 曾 明 线性 回归 模型 还 是 非 线 性 回归 模型 来 排 
序 。 我 们 还 使 用 下 述 缩写 方式 :dgp( 数 据 生 成 过 程 ) iid( 独 立 同 分 布 )、pdf( 概 率 密 
度 函 数 ) .cdf( 累 积分 布 函 数 ) 三 ( 似 然 ) .in 工 ( 对 数 似 然 )、FE( 固 定 效 应 ) 以 及 RE 
(随机 效应 )。 


表 1.3 常用 首 字 母 缩 略 词 和 缩写 方式 


OLS 普通 最 小 二 乘法 
GLS 广义 最 小 二 乘法 
FGLS 可 行 广义 最 小 二 乘法 
线性 IV 工具 变量 
2SLS 两 阶段 最 小 二 乘法 
3SLS 三 阶段 最 小 二 乘法 
NLS 非 线性 最 小 二 乘法 
FGNLS 可 行 广义 非 线性 最 小 二 乘法 
- 非 线性 NIV 非 线性 工具 变量 
NIL2SLS 非 线 性 两 阶段 最 小 二 乘法 
NL3SLS 非 线性 三 阶段 最 小 二 乘法 
LS 最 小 二 乘法 
ML 极 大 似 然 法 
普通 QML 准 极 大 似 然 法 
GMM 广义 矩 方法 
GEE 广义 估计 方程 


2 


因 未 模型 与 非 因 采 模型 


有 


2.1 引 论 


微观 经 济 计量 和 尝 是 人 研究 由 关于 个 体 、. 家 寿 以 及 厂商 的 微观 数据 所 发 展 起 来 的 
数据 分 析 方 法 的 理论 及 其 应 用 。 较 为 宽 谤 的 定义 还 可 包括 地 区 数据 和 州 数 据 。 微 
观 数据 通 沼 或 者 是 模 截 面 的 (数据 涉及 在 同一 时 点 上 的 一 些 状 况 ) ,或 者 是 纵向 的 
(面板 的 )( 数 据 涉 及 一 些 历经 几 个 时 期 的 相同 的 观测 单元 ;。 这 种 观测 值 既 可 以 由 
非 实验 方案 生成 ,譬如 人 口 普 查 和 调查 ,又 可 以 由 准 实验 或 实验 方案 生成 , 璧 如 由 
政府 实施 的 自愿 者 参与 实验 。 

微观 经 济 计量 模型 可 以 是 对 一 系列 微观 经 济 观测 值 的 概率 分 布 的 一 个 完全 设 
定 ; 也 可 以 是 对 一 些 变量 的 某 种 分 布 性 质 的 部 分 设 定 ,譬如 矩 。 特 别 是 ,关注 以 回 
归 元 为 条 件 的 单个 因 变量 的 均值 。 

微观 经 济 计量 学 有 几 个 目的 。 这 些 目 的 既 包 括 数据 描述 ,又 包括 因果 推断 。 
第 一 种 情况 可 以 被 广泛 地 定义 ,以 便于 包括 响应 变量 的 矩 性 质 , 或 者 强调 关联 而 不 
是 因果 关系 的 回归 方程 。 第 二 种 情况 包括 因果 关系 ,其 目的 在 于 对 微观 经 济 行为 
进行 测量 ,或 对 微观 经 济 行 为 的 假说 与 命题 的 实证 进行 证 实 或 反 驶 。 因 此 ,实证 人 研 
究 的 类 型 和 方式 可 以 有 很 广泛 的 范围 。 其 中 一 种 极端 情况 是 以 高 度 结构 化 建立 起 
来 的 结构 模型 , 它 是 由 对 基本 经 济 行 为 的 详细 设 定 推导 出 来 的 ,用 以 分 析 相 互 依存 
的 微观 经 济 变量 的 因果 (causal) 行 为 或 者 结构 关系 (structural relationships); 男 外 
一 种 极端 情况 是 简化 式 (reduced form) , 它 没有 必要 依赖 于 对 所 有 相关 的 相互 依存 
变量 进行 详细 的 设 定 , 目 的 是 研究 变量 之 间 的 相关 性 与 关联 性 。 两 种 方法 都 分 至 
有 助 于 理解 微观 经 济 行 为 的 揭示 重要 而 引 人 注 目 关系 的 共同 目标 ,但 是 ,在 指导 其 
实证 研究 的 过 程 中 ,它们 依赖 于 经 济 理论 的 程度 是 有 差异 的 。 

作为 一 门 学 科 分 支 的 微观 经 济 计量 学 , 比 起 关注 于 对 市 场 和 汇总 数据 建 模 的 
宏观 经 济 计量 学 要 “年 轻 ” 一 些 。 应 用 经 济 计量 学 的 早期 大 量 研究 是 建立 在 由 政府 
机 构 收 集 的 总 时 间 序 列 的 基础 之 上 。 有 关 统 计 需 求 分 析 的 早期 大 多 数 人 研究 ,在 20 
世纪 40 年 代 以 前 一 直 使 用 的 是 市 场 数据 , 而 不 是 个 体 或 家 庭 数据 L 享 德里 和 摩根 
(Hendry and Morgan，1996) |。 摩 根 (Morgan，1990) 关 于 经 济 计 量 思想 历史 的 
书 , 除 了 有 一 个 重要 的 例外 ,几乎 没有 涉及 20 世纪 40 年 代 以 前 的 微观 经 济 计量 学 


忆 因果 模型 与 非 因果 模型 


开国 


兰 作 。 那 个 例外 是 关于 家 庭 收 支 预算 数据 的 研究 , 即 对 许多 家 庭 不 富裕 的 生活 标 
准 进 行 的 研究 。 这 曾 导 致 对 家 庭 收 支 预 算数 据 的 搜集 ,从 而 为 某 些 早期 的 微观 经 
济 计量 研究 ,比如 艾 伦 和 鲍 利 (Allen and Bowley，1935) 那 些 先驱 性 的 研究 ,提供 
了 原始 资料 。 然 而 ,只 有 在 20 世纪 50 年 代 , 微 观 经 济 计量 学 才 作 为 一 个 独特 的 有 
组 织 的 学 科 分 文 而 出 现 。 甚 至 进入 20 世纪 60 年 代 , 微 观 经 济 计量 学 的 核心 是 由 
建立 在 家 庭 调 查 基 础 之 上 的 需求 分 析 构 成 的 。 

随 者 2000 年 度 诺 贝 尔 经 济 学 奖 授 予 钥 姆 斯 。 赫 克 曼 (James Heckman) 和 和 丹 
尼 尔 ， 麦 元 法 登 (Daniel McFadden) , 以 表彰 他 们 对 微观 经 济 计量 学 的 贡献 ,该 学 
科 领 域 作为 一 个 独特 的 学 科 分 支 才 形成 了 清晰 的 框架 。 这 个 奖项 表彰 赫 克 曼 “ 在 
分 析 选 择 样本 的 理论 和 方法 上 的 发 展 ”, 同 时 表彰 麦克 法 登 “ 在 分 析 离 散 选 择 的 理 
论 和 方法 上 的 发 展 ”。 在 提 及 微观 经 济 学 所 研究 论题 类 型 的 事例 时 ,人 们 会 引 经 据 
典 ,“…… 是 什么 因素 会 促使 个 体 决 定 是 否 去 工作 ? 要 是 工作 的 话 , 做 多 少 小 时 呢 ? 
经 济 激 励 是 怎样 影响 个 体 对 教育 、 职 业 或 住所 地 点 的 选择 的 ? 各 种 不 同 的 劳动 力 
市 场 与 教育 计划 对 个 体 收 入 和 就 业 的 影响 是 什么 呢 ?” 

微观 经 济 计量 学 方法 的 应 用 不 仅 出 现在 微观 经 济 学 的 每 一 个 领域 中 ,而 且 出 
现在 其 他 同类 的 社会 科学 之 中 ,比如 政治 科学 .社会 学 以 及 地 理学 。 

从 20 世纪 70 年 代 开 始 , 而 且 特 别 是 在 过 去 20 年 间 , 我 们 处 理 大 量 数 据 集 以 
及 有 关 的 计算 能 力 部 发 生 了 章 命 性 的 进步 。 这 些 连 同 大 量 可 利用 性 微观 经 济 数据 
集 的 剧 增 都 极 大 地 扩展 了 微观 经 济 计 量 学 的 范围 。 因 此 ,尽管 实证 需求 分 析 继 续 
成 为 微观 经 济 计量 方法 应 用 的 最 重要 领域 之 一 ,但 是 它们 的 类 型 与 内 容 严 重地 受 
到 壬 新 方法 与 模型 的 影响 。 更 进一步 地 ,经 济 发 展 . 金 融 、 健 康 、 工 业 组 织 、 劳 动力 
和 公共 经 济 学 .应 用 微观 经 济 学 的 应 用 现在 成 为 平常 之 事 , 而 且 这 些 应 用 在 本 书 的 
不 同 地 方 都 将 遇 到 。 

本 书 主要 关注 过 去 30 年 间 所 出 现 的 较 新 内 容 。 我 们 的 目标 是 研究 一 些 概念 、 
模型 以 及 方法 ,我 们 认为 ,这 些 内 容 是 现代 微观 经 济 计量 学 家 工具 箱 中 的 标准 组 成 
部 分 。 当 然 , 作 为 本 书 假定 的 读者 与 作者 自己 背景 的 函数 ,一 些 标准 方法 与 模型 的 
概念 必定 既 有 主观 性 又 有 弹性 。 我 们 认为 ,还 会 存在 相对 于 引 论 书 而 言 更 高 等 的 
一 些 论 题 , 壁 如 以 不 同 范畴 设置 的 其 他 情况 。 

微观 经 济 计量 学 关注 于 能 给 出 结构 解释 的 非 线 性 模型 的 含义 以 及 可 获得 的 估 
计 值 。 本 书 的 大 部 分 内 容 , 特 别 是 第 二 部 分 至 第 四 部 分 ,将 阐述 非 线 性 模型 的 方 
法 。 这 些 非 线性 方法 和 包括 生物 统计 学 的 许多 应 用 统计 学 领域 相交 叉 。 与 之 相 
比 , 经 济 计 量 学 的 显著 特性 是 对 因果 建 模 的 强调 。 本 章 引进 和 因果 (以 及 非 因 果 ) 
建 模 相关 的 重要 概念 ,以 及 既 与 线性 模型 关系 联系 密切 又 与 非 线 性 模型 关系 联系 
密切 的 概念 。 

第 2.2 节 和 2. 3 节 引 和 重要 的 结构 与 外 生性 的 概念 。 第 2. 4 节 使 用 线性 联 立 
方程 组 模型 作为 结构 模型 的 特殊 解释 ,而 且 将 它 与 其 他 的 重要 简化 式 模型 的 概念 
联系 起 来 。 第 2. 5 刷 给 出 识别 的 定义 。 第 2. 6 市 考察 单方 程 结 构 模 型 。 第 2.7 市 
则 引入 潜在 结果 模型 ,并 有 旦 把 潜在 结果 模型 中 的 因果 参数 和 解释 与 联 立方 程 中 的 
那些 内 容 加 以 比较 。 第 2. 8 市 对 建 模 和 估计 策略 给 出 一 个 简要 的 讨论 ,以 便 应 对 
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计算 和 数据 的 挑战 。 
2.2 ”结构 模型 


结构 (structure) 具 有 以 下 四 个 性 质 ， 

1 为 了 方便 起见 ,把 一 系列 变量 W(“ 数 据 ”) 分 割 成 LY Z|; 

2. W 的 联合 概率 分 布 为 FC(W); 

3. 依照 假设 的 因果 与 效应 关系 ;对 W 定 出 先 验 顺序 ,并 对 已 假定 模型 的 先 验 
约束 进行 设 定 ; 

4. 对 隙 数 形式 设 定 参数 、 半 参数 或 者 非 参 数 的 形式 ,并 且 对 模型 的 参数 加 以 
约束 。 

这 种 结构 模型 的 一 般 描述 和 已 为 大 家 所 接受 的 考 尔 斯 委员 会 (Cowles 
Commission) 对 结构 的 定义 一 致 。 例 如 , 陕 根 (Sargan，1988, 第 27 页 ) 写 道 : 

模型 是 关于 一 系列 观测 值 的 概率 分 布 的 设 定 。 结 构 是 对 那个 分 布 参 数 的 
设 定 。 因 此 ,结构 是 对 所 有 参数 都 指定 数值 的 模型 。 


我 们 考察 下 述 情况 , 即 建 模 目的 是 解释 可 观测 向 量 值 变 量 y，y 一 (y ，…yc )。 
y 的 每 一 个 元 素 都 是 y 的 某 些 其 他 元 素 与 解释 变量 z 以 及 一 个 纯 随 机 扰动 项 x 的 
负数 。 注 意 到 ,假定 变量 y 是 相互 依存 的 。 与 之 相 比 ,不 可 以 对 z 之 间 的 相互 依存 
进行 建 模 。 第 i 个 观测 值 满足 隐 性 方程 集合 : 


多 (Yi ， A u |0) 一 从 (2.1) 


其 中 ,g 表示 一 个 已 知 咕 数 。 我 们 把 这 称 为 结构 模型 (structural model) ,把 9 称 为 
结构 参数 。 这 对 应 于 本 节 前 面 曾 给 定 的 性 质 4。 

假定 对 于 每 一 个 (z;, uw) 而 言 ,关于 y; 存在 唯一 解 。 于 是 ,我 们 能 够 以 显 性 形 
式 把 关于 yy 的 方程 写成 (z, 由 的 函数 : 


yi CO—f(z,, ui | zr) (2. 2) 


这 称 为 结构 模型 的 简化 式 (reduced form) ,其 中 , 普 表示 简化 式 参 数 向 量 , 它 是 8 的 
函数 。 该 简化 式 可 通过 求解 给 定 (z;, uw) 时 关于 内 生变 量 y; 的 结构 模型 来 获得 。 
简化 式 参 数 x 是 9 的 函数 。 : 

如 果 建 模 目 的 是 对 9 的 元 素 进行 推断 ,那么 式 (2. 1) 提 供 了 推断 的 直接 途径 。 
这 涉及 对 结构 模型 的 估计 。 然 而 ,由 于 zt 的 元 素 都 是 9 的 函数 ,所 以 式 (2. 2) 还 提 
供 了 对 8 推断 的 间接 途径 。 如 果 fgz w1z) 具 有 已 知 靖 数 形式 ,并 旦 如 果 关 于 zz 
和 u;, 它 是 可 加 性 分 开 的 ,这 就 能 够 写成 : 


y:—g(z| zx) y=—=E Ly; |z | 二 Tu; (2. 3) 


那么 y 对 z 的 回归 就 是 给 定 z 时 关于 y 的 一 个 目 然而 然 的 预测 函数 。 在 这 个 意义 
上 ,简化 式 方程 有 助 于 在 实施 给 定 (z;， vu;) 时 对 y; 进行 条 件 预测 。 对 指定 式 (2. 2) 
右边 变量 的 值 来 说 ,为 了 生成 左边 变量 的 预测 ,需要 zr 的 估计 值 ,这 在 计算 上 是 比 
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较 人 简单 的 。 
式 (2, 3) 的 一 个 重要 推广 是 变换 模型 (transformation model) , 对 于 纯 量 y 而 
言 , 它 采 用 的 形式 为 : 
A(y) 一 Z 元 十 昌 (2. 4) 


其 中 ,A(y) 表 示 变 换 函 数 [例如 ,A(y) 二 In(y) 或 A(y) 二 yy ]。 在 一 些 情况 下 , 变 
换 晒 数 可 以 依赖 于 未 知 参 数 。 变 换 模型 有 别 于 回归 ,但 它 还 是 能 够 用 于 实施 对 
ELy|zj 的 估计 。 一 个 重要 的 事例 就 是 将 在 第 17 章 分 析 的 加 速 失 败 时 间 模 型 。 

在 对 结构 模型 的 设 定 中 ,最 重要 的 且 潜 在 地 引起 争论 的 步骤 之 一 是 性 质 3, 其 
中 把 变量 分 成 因果 与 效应 的 先 验 排 序 就 被 认为 是 指定 的 。 本 质 上 ,这 使 我 们 要 区 
分 两 种 不 同 的 变量 ,一 种 变量 的 变化 由 设计 的 模型 来 解释 ,而 另外 一 种 变量 的 变化 
是 由 外 部 决定 的 ,因此 , 它 的 变化 不 在 我 们 的 研究 范围 之 内 。 在 微观 经 济 计 量 学 
中 ,前 者 的 事例 包括 党 教育 年 数 与 工作 小 时 数 ; 后 者 的 事例 包括 性 别 .民族 、 年 龄 以 
及 类 似 的 人 口 数 量 。 前 者 记 为 y, 称 为 内 生变 量 (endogenous variable) ,而 后 者 记 为 
z, 称 为 外 生变 量 (exogenous variable) 。 

变量 的 外 生性 是 一 个 重要 的 简化 ,因为 它 在 本 质 上 可 对 下 述 决 案 判 断 对 错 , 即 
把 那些 变量 外 理 成 辅助 的 ,而 不 是 要 建立 的 那些 变量 ,原因 是 关系 肾 数 不 对 人 研究 的 
变量 产生 影响 。 这 种 重要 的 概念 需要 更 正式 的 定义 ,现在 我 们 就 给 出 定义 。 


2.3 外 生性 


我 们 以 考察 一 般 有 限 维 参 数 情况 的 表达 式 来 开始 ,由 于 参数 8 分 割 成 
(01，0:) ,W 的 联合 分 布 可 被 因 式 分 解 为 给 定 Z 时 YY 的 条 件 密度 以 及 给 定 


f, (W|IO)= PFCYIZ,，b)X ful210) (2. 5) 
时 Z 的 边缘 密度 。 如 果 ， | 
fi(W|I0)= fe (YZ, 01) X fu(Z108,) 


那么 会 产生 一 种 特殊 情况 ,其 中 ,0 与 0: 在 图 数 形 式 上 是 独立 的 。 于 是 ,我 们 就 
说 , 乙 关 于 0 是 外 生 的 ;这 意味 着 ,对 0 进行 推断 并 不 需要 fu (Z|68s) 的 知识 , 因 
此 ,我 们 能 有 效 地 把 YY 的 分 布 以 Z 为 条 件 。 

一 些 模型 总 是 可 以 重新 参数 化 的 。 因 此 , 接 下 来 考虑 用 参数 gp 对 模型 重新 参 
数 化 ,w 作为 对 8 的 一 一 变换 ,比如 说 ,wp 二 (0) ,其 中 ,yp 被 分 割 成 (gp1,p:)。 例 
如 ,如 果 w! 对 于 政策 干预 种 类 而 言 是 结构 不 变 的 ,那么 这 种 重新 参数 化 或 许 是 关 
注 的 内 容 。 假 定 9g1 是 关注 的 参数 。 在 这 种 情况 下 ,人们 对 ZZ 关于 wp: 的 外 生性 感 
兴趣 。 于 是 ,外 生性 的 条 件 是 ， 


fr/(W|yp)= felYZ, 1) X ful | oz ) (2.6) 


其 中 ,ol 与 (P2 是 独立 的 。 
最 后 ,考察 关注 于 参数 4 的 情况 ,4 是 yp 的 函数 ,比如 说 h(yp)。 于 是 ,对 于 Z 
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关于 4 的 外 生性 来 说 ,我 们 需要 两 个 条 件 ; (i) 4 只 依赖 于 pl ,也 就 是 说 ,A 二 hh( wp1)， 
因而 , 仅 有 条 件 分 布 是 关注 的 内 容 ; (ii) pl 与 ; 均 是 “自由 变动 的 ”(variation 
free) ,这 意味 着 联合 分 布 的 参数 不 受 限 于 交叉 约束 ,也 就 是 说 , (gp1,p2)E 听 XD 一 
(PI1ED, p: ED,)., 

在 外 生性 概念 的 发 展 中 , 式 (2. 5) 与 式 (2.6) 中 的 因 式 分 解 起 着 重要 作用 。 本 
书 特别 关注 与 外 生性 相关 的 下 述 三 个 概念 。 

定义 2. 1( 弱 外 生性 ): 对 于 4 而 言 ,ZZ 是 弱 外 生 的 (weakly exogenous) , 如果 (1) 
与 (11) 均 成 立 。 

如 果 边 际 模型 参数 对 推断 4 而 言 都 是 没有 信息 价值 的 ,那么 推断 4 就 只 能 根 
据 条 件 分 布 A(Y|Z，w1) 来 继续 进行 。 其 运算 意义 为 ,如 果 人 们 关注 于 推断 4 或 
wp1; 那 么 弱 外 生变 量 可 以 取 成 给 定 的 。 这 样 做 并 不 意味 着 ,不 存在 Zz 的 统计 模型 ，; 
它 意味 着 模型 的 参数 在 推断 p1 时 没有 起 作用 ,从 而 它们 是 无 关 的 。 


2.3.1 条 件 独 六 性 


就 起 源 而 论 , 格 兰 杰 因果 性 (Granger causality) 概 念 可 在 时 间 序 列 育 景 下 就 预 
测 内 容 来 定义 。 更 一 般 地 讲 , 它 能 够 被 解释 成 条 件 独立 性 (conditional independent) 
的 形式 [ 霍 兰 德 (Holland,1986, 第 957 页 )]。 

把 z 分 割 成 两 个 子 集 z 与 z2。 


设 
W=[y,， Z1 ， Z| (2.7) 
表示 关注 变量 的 矩阵 。 于 是 ,给 定 zz 时 ,如 果 : 
flylz1, 2z2)—= f(y|z;) (2. 8) 


则 z 与 y 是 条 件 独 立 的 。 这 一 概念 比 均值 独立 性 (mean independent) 假 设 概 强 一 
些 , 它 列 含 者 : 
ECy|zi ， 7 ) 一 ECy|z2z) (2.9) 


于 是 ,一 旦 以 zz 为 条 件 ,zi 不 会 有 关于 y 的 预测 值 。 在 预测 条 件 下 ,这 意味 着 z 不 
是 yy 的 格 兰 杰 原因 ， 

在 时 间 序 列 背 景 下 ,zi 与 zz 将 是 y 子 集 的 互 不 相交 滞后 值 。 

定义 2.2 ( 强 外 生性 ) 如 果 zi 关于 gp 是 弱 外 生性 的 且 不 是 3 的 格 兰 杰 原因 ， 
则 zi 关于 是 强 外 生 的 (strongly exogenous) ,所 以 式 (2.8) 成 立 。 


2.3.2 外 生性 变量 


外 生性 是 一 个 强 的 假设 。 相 对 于 关注 参数 来 说 , 它 是 随机 变量 的 性 质 。 因 此 ， 
在 一 个 结构 模型 中 ,可 以 把 变量 有 效 地 处 理 成 外 生 的 ,而 在 男 外 一 个 模型 中 则 不 
能 ;重要 的 问题 是 ,一 些 参 数 作 为 推断 的 主题 。 对 这 个 性 质 的 任意 加 强 将 会 得 到 茶 
种 人 们 满意 的 结果 ,这 将 在 2. 4 节 加 以 讨论 。 

外 生性 假设 可 以 由 先前 的 理论 来 判断 正确 , 它 作 为 维持 模型 假设 的 一 部 分 。 
在 一 些 情况 下 , 它 被 证 明 是 一 种 有 效 的 近似 ,在 这 种 情况 下 , 它 受 限于 检验 , 如同 
8. 4. 3 节 所 讨论 的 。 在 横 截 面 分 析 中 , 它 可 以 被 证 明 是 一 个 自然 实验 或 一 个 拟 实 
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验 的 结果 ,其 中 ,变量 的 值 是 由 外 部 干预 来 确定 的 ;例如 ,政府 或 管理 机 构 可 以 确定 
税率 的 设置 或 者 政策 参数 。 特 别 关注 的 内 容 是 下 述 情况 ,干预 结果 导致 了 重要 政 
策 变 量 值 的 变动 。 这 种 自然 实验 等 同 于 某 些 变量 的 外 生化 。 正 如 我 们 将 在 第 3 章 
看 到 的 ,这 将 创立 在 没有 其 他 复杂 因素 的 情况 下 去 研究 变量 影响 的 准 实验 机 会 


(guasi-experimental opportunlty) 。 


2.4 线性 联 立 方程 模型 


在 式 (2. 1) 中 设 定 的 一 般 结 构 模 型 的 一 个 重要 特殊 情况 ,是 由 考 尔 斯 委员 会 经 
济 计量 学 家 发 展 起 来 的 线性 联 苹 方 程 模 型 。 在 许多 文献 中 [譬如 酉 根 (Sargan， 
1988)] ,可 以 找到 对 这 种 模型 的 综合 处 理 。 这 里 的 研究 是 概括 性 的 .选择 性 的 ;人 参 
见 6.9.6 节 。 其 目的 是 对 几 种 重点 思想 和 概念 进行 讨论 ,而 这 些 思想 和 概念 具有 
更 次 志 的 关联 。 尽 管 这 样 的 分 析 局 限于 线性 模型 ,但 是 一 些 见 解 可 以 锌 日 常 应 用 
到 非 线 性 模型 上 。 


2.4.1 SEM 设置 


线性 联 立 方程 模型 (SEM) 设 置 如 下 : 
V1i Bu 十 … 十 VGi Bic 十 zyal 十 … 十 ZKiYIK 一 li 


mm 
一 


yT1 Boi 十 … 十 yeGi pec 十 zliycl 十 十 ZKYGK — Uo: 
其 中 ,i 表示 观测 值 下 标 。 

在 内 生变 量 yi 一 (yi y6i) 与 外 生变 量 2; 一 (zli， "*", zci ) 之 间 ,做 出 一 种 
清晰 的 先 验 差 别 或 者 预先 安排 。 由 定义 ,外 生变 量 与 纯 随机 扰动 (zi ……，xci) 是 不 
相关 的 。 在 其 无 约束 形式 中 ,每 一 个 变量 都 可 以 进入 每 一 个 方程 。 

在 矩阵 记号 下 ,G 个 方程 SEM 的 第 i 个 方程 可 写成 : 

y:B+zT=—=w (2. 10) 
其 中 ,y;、B、z;\T 以 及 vu 的 维 数 分 别 为 GX1.GXG、KX1.KXG 以 及 GX1。 对 于 
(B, 也 与 (zw ) 的 设 定 值 来 说 ,原则 上 能 够 求解 出 关于 y; 的 G 个 线性 联 立 方程 。 

SEM 的 标准 假设 如 下 ， 

1. B 是 非 奇 异 的 , 且 具 有 秩 G。 

2. rank[ZZ 一 KK。NXK 阶 和 矩阵 ZZ 是 由 ,1 二 1,，2,… ,NN 番 放 形成 的 。 

3. plim N “1ZZ 一 五 是 对 称 的 KXK 阶 正定 矩阵 。 

4. 下 一 人 AL0， 也 | ,也 就 是 说 ,ELu | 一 0 且 FLwu | 二 有 二 上 oi; ] ,其 中 ;本 表示 对 
称 的 GXG 阶 正定 矩阵 。 

S$， 每 一 个 方程 的 误差 项 是 序列 独立 的 。 

在 这 种 模型 中 , 其 结构 (或 结构 参数 ) 是 由 (了 工 , 互 ) 构 成 的 。 一 旦 与 成 ， 
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这 可 以 允许 我 们 以 更 紧凑 的 形式 把 结构 模型 写成 : 
YB+Zr=U (2. 11) 


其 中 ,和 拓 阵 Y.B.ZT 与 U 的 阶 数 分 别 为 NXG.GXG.NXK、.KXG 以 及 NXG. 
一 旦 用 所 有 人 外 生变 量 求解 出 所 有 内 生变 量 , 我 们 就 得 出 SEM 的 简化 式 (reduced 
form of the SEM). 


Y 十 ZEB = 一 UB 
Y=ZIITYVY (2. 12) 


其 中 , 开 一 一 TB- '!, 而 V= 二 UB™!。 给 定 假设 4, 则 v~N[0, B ' 2ZB-:]。 

在 SEM 框架 下 ,有 几 种 原因 促使 结构 模型 成 为 首要 的 形式 。 第 一 ,方程 本 号 
可 以 所 有 对 诸如 需求 或 供给 关系 、 生 产 肾 数 等 经 济 关 系 的 解释 ,而 且 方 程 受 限于 经 
济 理论 的 约束 。 因 此 ,B 与 工 都 是 描述 经 济 行为 的 参数 。 因 而 , 先 验 的 理论 能 够 产 
生 关 于 个 体系 数 的 符号 及 大 小 的 预期 。 与 之 相 比 ,无 约束 简化 式 参 数 潜 在 地 作为 
结构 参数 的 复杂 函数 ,而 且 照 此 计算 它们 的 后 估计 很 困难 。 如 果 经 济 计量 建 模 的 
目标 是 预测 ,而 不 是 对 带 有 行为 解释 的 参数 进行 推断 ,那么 这 种 考虑 或 许 不 怎么 
重要 。 

为 了 不 失 一 般 性 ,考察 模型 (2. 11) 中 的 第 一 个 方程 ,把 y, 作为 因 变 量 。 此 外 ， 
剩 下 的 CG 一 1 个 内 生变 量 与 天 一 1 个 外 生变 量 的 一 部 分 可 以 不 在 这 个 方程 之 中 。 
从 式 (2. 12) 中 我 们 看 到 ,内 生变 量 Y 通常 随机 地 依赖 于 V, 同 样 也 是 结构 误差 U 的 
函数 。 因 此 ,通常 plim N -YU 和 0。 一般 地 , 对联 立 方程 应 用 最 小 二 乘法 估计 ， 
会 产生 非 一 致 性 估计 值 。 这 是 众 从 周知 的 且 基 本 的 结果 , 它 起 源 于 联 立 方程 文献 ， 
经 常 被 称 为 “ 联 立 方程 偏 倚 ” 的 问题 。 当 最 小 二 乘 方 法 失效 时 ,有 大 量 的 联 立 方程 
模型 的 文献 处 理 识别 与 一 致 性 估计 ;参见 萨 根 (Sargan，1988) 和 施 密 特 (Schmidt， 
1976) 以 及 6. 9.6 节 。 

SEM 的 简化 式 把 每 一 个 内 生变 量 表示 成 所 有 外 生变 量 与 所 有 结构 扰动 项 的 
线性 函数 。 简 化 式 扰动 项 是 结构 扰动 项 的 线性 组 合 。 出 自 简 化 式 的 第 i 个 观测 
值 为 : 


Ely.|z |—z;IH (2. 13) 
V[y;|z |=0Q=B II ZB-: (2. 14) 


简化 式 参 数 开 可 以 被 推导 成 为 结构 参数 的 函数 所 定义 的 参数 。 如 果 开 能 够 被 一 
致 估计 ,那么 简化 式 能 做 出 关于 Y 随 Z 中 外 生变 化 而 变化 的 预测 陈述 。 即 使 B 与 
FT 都 是 未 知 的 ,这 也 是 可 能 的 。 给 定 Z 的 外 生性 ,简化 式 回 归 的 全 部 集合 是 多 变量 
回归 模型 ,这 可 以 通过 最 小 二 乘法 得 到 一 致 估计 。 简 化 式 为 给 定时 对 进行 条 
件 预 测 提供 了 基础 。 

约束 简化 式 是 由 无 约束 简化 式 模 型 受 限 于 约束 而 得 到 的 。 如 果 这 些 约 束 与 那 
些 应 用 到 结构 式 上 的 一 样 ,那么 结构 信息 就 能 够 被 简化 式 重 新 利用 。 

在 SEM 框架 下 ,未 知 结构 参数 BT 以 及 互 的 非 零 元 素 起 着 核心 作用 ,因为 它 
们 反映 了 模型 的 因果 结构 。 内 生变 量 之 间 的 相互 依存 是 由 B 来 刻画 的 ,而 内 生变 
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量 对 忆 中 的 外 生 冲 击 的 啊 应 则 反映 在 参数 矩阵 中 。 在 这 种 设置 下 ,关注 的 因果 参 
数 就 是 那些 可 测量 解释 变量 y; 或 z 的 变化 对 关注 结果 y1 ,i 考 ; 的 直接 边际 影响 ， 
以 及 这 些 参 数 与 数据 的 水 数 。 三 元 紊 刻画 出 随机 扰动 项 的 离散 趋势 与 相关 性 , 因 
此 ,它们 测量 数据 生成 方式 的 某 些 性 质 。 


2. 4.2 SENM 的 因 累 解 疗 


用 一 个 简单 的 事例 来 前 明 SEM 中 参数 的 因果 解释 。 结 构 模 型 具有 两 个 连续 
内 生变 量 yi 与 yi 一 个 连续 外 生变 量 z 一 个 联系 y 与 yz 的 随机 关系 ,以 及 一 个 
联系 模型 中 全 部 三 个 变量 的 可 定义 的 恒等式 : 


yl 7) 十 局 2 十 wl 9 0<A 一 ] 
yz = Yi 十 儿 ] 


在 此 模型 中 ,zw 表示 随机 扰动 项 , 它 与 z! 是 独立 的 ,具有 定义 良好 的 分 布 。 参 数 B 
受 限 于 同样 作为 该 模型 设 定 一 部 分 的 一 个 不 等 式 约束 。 变 量 二 是 外 生 的 ,因此 它 
的 变动 是 由 我 们 认为 是 干预 的 外 部 来 源 而 引起 的 。 这 些 干预 通过 和 己 等 式 对 ys 具 
有 直接 影响 ,而 且 通 过 第 一 个 式 子 对 其 产生 间接 影响 。 影 响 可 通过 该 模型 的 简化 
式 来 测量 , 即 、 





1 


=E[ yi|zi Tw 
的 1 了 
y2 一 1B IB 1h 
=E| yz |zi 二 Tw 
其 中 ,vw 二 wu1/(1 一 B)。 简 化 式 系数 B/(1 一 B1) 与 1/(1 一 B) 具 有 因果 人 解释。 任何 
外 部 引起 的 z! 上 的 变动 都 将 引发 y1 与 yz 变动 这 些 数量 。 注 意 到 ,在 这 个 模型 中 ， 
yi 与 yz 也 对 ul 有 了 响应。 为 了 不 混 消 对 这 两 个 变动 来 源 的 影响 ,我 们 要 求 zi 与 凤 
是 独立 的 。 
同样 注意 到 : 


Ww] 


9 go B :1 
dy? 1 一 记 1 一 房 

do .9 

dz1 dz 
在 什么 意义 下 ,B 能 测度 ys 对 yi 的 因果 效应 呢 ? 为 了 理解 可 能 的 困难 ,观察 
发 现 ,yi 与 % 是 相互 依存 的 或 是 联合 确定 的 ,因此 ,在 什么 意义 下 y:“ 引 起 ”yi 并 
不 清楚 。 虽 然 z;:( 以 及 ui) 在 简化 式 意义 下 是 变动 的 最 终 原 因 , 但 ys 是 yi 的 近似 
原因 或 者 中 间 原 因 。 也 就 是 说 ,第 一 个 结构 方程 提供 了 y; 对 yi 影响 的 简要 摘 述 ， 
而 简化 式 则 为 了 计算 它们 而 给 出 了 在 考虑 两 个 内 生变 量 之 间 的 所 有 交互 作用 之 后 
的 (均衡 ) 影 响 。 在 SEM 框架 下 ,甚至 把 内 生变 量 看 成 是 因果 变量 ,而 且 把 它们 的 
系数 作为 因果 系数 。 这 一 方法 能 够 产生 困惑 , 即 在 以 变动 的 独立 来 源 作为 因果 变 
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量 的 实验 背景 下 ,把 谁 看 成 因果 性 。 如 果 ys。 是 独立 的 旦 是 外 生来 源 ,那么 SEM 方 
法 有 意义 ,在 此 模型 中 变动 就 是 zx 。 因 此 ,边际 响应 系数 由 是 yi 与 y; 如何 响 应 
zi 变化 的 肾 数 ,因为 前 面 的 方程 是 清楚 的 。 

当然 ,这 个 模型 只 是 一 种 特殊 情况 。 更 一 般 地 讲 , 我 们 可 以 询问 在 什么 条 件 
下 ,SEM 参数 将 具有 有 意义 的 因果 解释 。 在 2. 5 节 讨 论 识别 概念 时 ,我 们 将 回 到 
这 个 问题 上 ， 


2.4.3 少 展 到 非 线 性 和 潜 变 量 模 型 


如 果 联 立 模型 仅仅 关于 参数 是 非 线 性 的 (nonlinear in parameters) ,那么 结构 
模型 可 以 写成 : 


YB(@) ZT(0)=U (2. 15) 


其 中 ,B(8) 与 T(9) 蝇 表示 算 阵 ,它们 的 元 素 均 是 结构 参数 8 的 函数 。 如 上 所 述 ,能 
够 推导 出 显 性 的 简化 式 。 

然而 ,如 果 非 线性 Cnonlinear) 是 关于 变量 (in variables) 的 ,那么 获得 显 性 ( 解 
析 的 ) 简 化 式 是 不 可 能 的 ,尽管 给 定 (z，u) 时 通常 能 获得 因 变 量 的 线性 化 近似 或 者 
数 便 解 。 

许多 微观 经 济 计 量 模型 都 涉及 潜 变 量 (11(Clatent variables) 或 者 不 可 观测 变量 
(unobserved variables) ,以 及 可 观测 内 生变 量 (observed endogenous variables)。 例 
如 ,搜索 和 拍卖 理论 模型 均 使 用 保守 工资 或 保留 价格 的 概念 ,选择 模型 引起 了 间接 
效用 等 。 在 这 类 模型 情况 下 ,结构 模型 (2. 1) 可 以 由 


gy’, Zi, W|10)=0 (2. 16) 
代替 ,其 中 , 洪 变 量 y 代替 可 观测 变量 y;。 用 (z;, wv) 来 求解 关于 y 的 对 应 简化 
式 , 得 到 : 

y=—f(z, wll) (2. 17) 
由 于 yi 并 不 是 完全 可 观测 的 ,所 以 这 种 简化 式 具 有 有 限 的 作用 。 然 而 ,如 果 我 们 


具有 函数 yy, 二 hl(y?), 它 与 可 观测 的 y; 的 潜在 部 分 相关 联 , 那 么 用 可 观测 的 形式 表 
示 简 化 式 就 是 ， 
y;—h(f(z,, uv | zx)) (2. 18) 
对 于 更 进一步 内 容 , 可 参见 16. 8. 2 节 。 
当 结 构 模 型 包括 关于 变量 的 非 线 性 或 者 当 其 涉及 潜 变 量 时 ,很 难得 到 这 种 简 
化 式 孙 数 形式 的 显 性 推导 。 在 一 些 情况 下 ,实践 者 使 用 近似 。 通 过 运用 数学 上 或 
计算 上 的 便利 ,一 种 特定 的 函数 形式 可 以 把 内 生变 量 与 所 有 的 外 生 恋 量 联系 起 来 ， 


[L123 义 称 为 潜在 变量 。 一 一 译 者 注 
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证 本 订 珊 古训 mm mm dm mm mm 


2.4.4 邓 络 攀 关 系 的 解 疗 


马 软 元 (Marschak，1953, 第 26 页 ) 在 一 篇 有 影响 的 论文 中 ,给 出 结构 的 下 述 
定义 : 
结构 被 定义 为 一 系列 不 变化 的 条 件 , 尽 管 有 观测 发 生 , 但 将 会 变动 。 如 果 
设 定 的 结构 变化 如 同人 们 期 望 的 或 者 打算 的 ,对 于 政策 制定 者 来 说 ,关注 变量 
的 预测 就 需要 过 去 结构 的 知识 ……: 在 经 济 学 中 ,构成 结构 的 条 件 是 :(1) 刻画 
人 类 行为 与 制度 以 及 技术 规律 的 一 系列 关系 ,通常 会 涉及 不 可 观测 的 随机 抗 
动 项 和 不 可 观测 的 测量 误差 ;(2) 这 些 随机 量 的 联合 概率 分 布 。 


马 软 元 认为 ,结构 是 定量 评估 或 检验 经 济 理论 的 基础 ,同时 最 佳 政 策 的 选择 需 
要 结构 的 知识 ，。 

在 SEM 文献 中 ,结构 模型 意 指 " 自治 的 ”( 不 是 推导 的 ) 关 系 。 存 在 着 另外 一 
与 结构 密切 相关 的 概念 。 一 种 这 样 的 概念 涉及 “ 深 参 数 ”, 它 意 指 那 些 对 于 干预 而 
言 不 变 的 拉 术 和 偏好 参数 。 

在 最 近 几 年 ,对 结构 术语 的 使 用 出 现 了 一 种 可 供 选 择 的 形式 , 即 经 济 计 量 模型 
建立 在 由 理性 行为 人 引起 的 动态 随机 最 优化 的 假设 基础 之 上 。 这 种 方法 中 ,对 任 
何 结 构 进行 估计 的 问题 出 发 点 都 是 去 定义 行为 人 最 优化 行为 的 一 阶 必要 条 件 。 例 
如 ,约束 最 大 化 效用 的 标准 问题 中 ,行为 关系 是 确定 性 一 阶 边际 效用 和 条件。 如 果 有 
关 的 盯 数 形式 都 能 得 到 显 性 表述 ,并 引进 最 优化 的 随机 性 差 , 那 么 一 一 
种 行为 模型 ,其 参数 可 以 刻画 效用 图 数 一 一 所 谓 的 桨 参数 或 政策 不 变 参 数 。 
事例 将 在 6. 2.7 节 和 16. 8. 1 万 给 

这 种 高 度 结构 化 方法 (highly structured approachy) 的 两 个 特点 应 该 提 及 。 第 
一 ,该 方法 以 严谨 方式 依赖 于 先前 的 经 济 理论 。、 经 济 理论 不 能 用 于 直接 生成 人 们 
以 在 一 定 程 度 上 任意 设置 的 图 数 形式 来 使 用 的 一 系列 相关 变量 。 相 反 , 基 本 经 济 
理论 在 设 定 .估计 以 及 推导 中 起 着 重要 作用 (但 不 是 排他 的 )。 第 二 ,所 得 到 的 模型 
的 估计 .识别 以 及 设 定 可 以 相当 复杂 ,因为 行为 人 的 最 优化 问题 可 能 非常 复杂 , 特 
别 是 当 不 确定 性 下 的 动态 最 优化 被 假定 ,并 且 离 散 性 与 非 连 续 性 部 得 以 表现 出 来 
时 ;参见 拉 斯 特 (Rust，1994)。 


2.5 识别 概念 


SEM 方法 的 目的 是 要 一 致 地 估计 出 (B，T, 马 ) ,并 且 进 行 统计 推断 。 一 致 佑 
计 的 一 个 重要 预先 条 件 是 ,模型 应 该 是 可 识别 的 。 我 们 将 在 参数 模型 背景 下 人 简要 
地 讨论 以 下 两 个 相关 的 重要 概念 :观测 等 价 性 (observationaj equivalence) 与 可 识别 
性 (identifiability) 。 

识别 与 给 定 充 分 观测 值 时 参数 的 确定 有 关 。 在 这 个 意义 上 , 它 是 一 个 渐 近 概 
念 。 统 计 上 的 不 确定 性 必定 要 影响 到 建立 在 有 限 观测 值 基 础 上 的 任何 判断 。 由 基 
于 假定 的 考虑 ,有 限 多 个 观察 值 是 可 以 利用 的 。 可 以 考虑 在 其 点 值 意 义 上 ,或 者 在 
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确定 那些 参数 成 为 元 素 的 集合 意义 上 ,决定 一 个 关注 参数 是 否 是 逻辑 上 可 行 的 。 
因此 ,识别 是 一 种 基础 性 考虑 ,而且 在 逻辑 上 应 优 于 统计 估计 ,并 与 统计 估计 相互 
分 开 , 这 一 点 也 是 本 节 要 强调 的 。 然 而 ,集合 识别 (set identification ) 或 者 界限 识别 
(bounds identification) 是 一 种 重要 的 方法 ,这 种 方法 在 本 书 的 个 别 地 方 将 会 用 到 
[例如 ,第 25 章 和 第 27 章 ; 参 见 曼 斯 基 (Manski，1995)]。 经 济 计量 文献 中 ,有 关 
识别 的 大 量 内 容 都 关注 于 点 识别 。 

定义 2.3( 观 测 等 价 性 ) 一 个 模型 所 定义 的 联合 概率 分 布 函 数 PrLx|0]， 
XE W, 0E 的 两 个 结构 在 观测 上 是 等 价 的 ,如 果 Pr[x|0 | 一 Pr[x|0], VxEW. 

稍微 正式 地 讲 , 如 果 给 定数 据 , 两 个 结构 模型 意味 着 相同 的 联合 概率 分 布 , 那 
么 ,这 两 个 结构 在 观测 上 就 是 等 价 的 。 在 观测 上 等 价 的 多 重 结构 的 存在 意味 着 识 
刑 失 效 。 

定义 2.4{ 识 别 性 ) ”一 个 结构 名 是 可 识别 的 ,如 果 在 @ 上 不 存在 观测 上 等 价 


在 线性 回归 y 二 XB 十 u 中 , 当 回 归 元 之 间 存 在 完全 多 重 共 线 性 时 ,就 是 一 个 简 
单 的 非 识 别 事例 。 于 是 ,我 们 能 识别 线性 组 合 CB, 其 中 ,rank[C] 二 rank[B8], 但 
是 ,我 们 却 不 能 识别 8 本 身 。 

这 种 定义 涉及 结构 的 唯一 性 。 在 我 们 已 给 定 的 SEM 背景 下 , 这 一 定义 意味 
着 ,识别 要 求 存 在 唯一 的 三 元 组 (B, 匡 , 卫 ) 与 已 观测 的 数据 一 致 性 。 在 SEM 中 ,如 
同 在 其 他 情况 中 一 样 , 识 别 涉及 能 获得 给 定数 据 的 样本 矩 时 结构 参数 的 唯一 估计 
值 。 例 如 ,就 简化 式 (2. 12) 而 言 ,在 所 述 假设 下 ,最 小 二 乘法 估计 量 提供 II 的 唯一 
估计 值 ,也 就 是 说 ,让 = [ZZJ-!1ZY, 并 且 BT 的 识别 要 求 ,给 定 模型 上 的 一 个 先 
验 约束 时 ,出 自 方程 I 十 TPB- 1 一 0 的 了 与 B 的 未 知 元 素 存 在 唯一 解 。 唯 一 解 则 蕴 
含 着 该 模型 的 恰好 识别 。 

一 个 完全 模型 被 称 为 可 识别 的 ,如 果 所 有 模型 参数 都 是 可 识别 的 。 对 于 某 些 
模型 来 说 , 仅 有 参数 的 一 个 子 集 是 可 识别 的 ,这 一 点 可 能 的 。 在 一 些 情况 下 ,或 许 
重要 的 是 识别 参数 的 某 一 函数 ,而 不 必 识 别 所 有 参数 。 参 数 函 数 的 识别 意味 着 , 那 
个 函数 能 够 唯一 地 被 FCW1@) 重 新 利用 。 

人 们 如 何 确保 可 以 "剔除 ?可 供 选 择 模型 设 定 的 结构 呢 ? 在 SEM 中 ,对 这 一 问 
题 的 解答 依赖 于 通过 (B，T, 玉 ) 上 的 先前 约束 而 增 大 的 样本 信息 。 这 种 先前 约束 
必须 把 充分 的 附加 信息 引信 模 型 中 ,以 便 剔 除 其 他 观测 上 等 价 结构 的 存在 性 。 

下 述 的 讨论 可 以 证 明 对 先前 约束 的 需要 。 注 意 到 ,给 定 2. 4. 1 节 的 假设 ,由 
(1, 2) 定义 的 简化 式 总 是 唯一 的 。 首 先 ,假定 (B, 工 , 互 ) 上 没有 约 柬 。 其 次 ,假定 
存在 两 个 观测 上 等 价 的 结构 (B, TI, 如) 与 (Bs, Ts, 也 ) 。 于 是 有 : 


HIB 一 一 TB (2. 19) 
令 旦 表示 一 个 GXG 阶 非 奇 异 矩 阵 。 从 而 , 工 B7'! 一 TIHH"1Bi' 一 TsB;1 ,这 意味 
着 I;y TH , B,=B,H., 因此 ,第 二 个 结构 是 对 第 一 个 结构 的 线性 变换 。 


对 这 个 问题 的 SEM 求解 是 要 引 八 (B, TT, ) 上 的 一 些 约束 ,使 得 我 们 能 够 蓟 
除 导致 观测 上 等 价 的 结构 的 那 种 线性 变换 的 存在 性 。 换 句 话 说 ,(B, , 王 ) 上 的 约 
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束 必 须 是 不 存在 和 抢 阵 H, 而 H 会 产生 具有 相同 简化 式 的 另外 一 种 结构 ;给 定 
(1, 2) ,将 存在 求解 方程 和 I 一 TB :和 QQ=(B-) ZEB-: 的 唯一 解 。 

实际 上 ,可 以 施加 各 种 各 样 的 约束 ,包括 :(1) 正规 化 ,例如 , 令 B 的 对 角 元 素 
为 1;(2) 0( 排 除 在 外 ) 与 线性 齐 次 的 以 及 非 齐 次 的 约束 ; (3) 协 方差 与 不 等 式 约 
束 。 在 线性 与 非 线 性 模型 中 ,关于 识别 的 必要 且 充 分 条 件 的 详细 内 容 , 能 够 在 许多 
文献 中 找到 ,包括 陕 根 (Sargan，1988) 。 

对 识别 约束 进行 有 意义 的 利用 ,要 求 所 施加 的 先前 约束 应 该 是 后 验 有 效 的。 
这 一 思想 在 考虑 识别 问题 的 几 章 中 会 进一步 地 展开 (例如 ,参见 6.9 节 )。 

排除 性 约束 (exclusion restrictions) 本 质 上 表明 ,模型 包括 了 对 某 些 内 生变 量 
具有 0 影 啊 的 一 些 变量 。 也 就 是 说 , 某 个 因果 方向 先前 被 剔除 了 。 这 使 得 识别 因 
有 果 的 其 他 方向 成 为 可 能 。 

例如 ,在 前 面 给 定 的 一 个 简单 的 两 个 变量 事例 中 ,zi 没有 进入 yi 方程 中 ,使 得 
识别 y: 对 yi 的 直接 影响 成 为 可 能 。 尽 管 排 除 性 约束 应 用 起 来 最 简单 ,但 在 参数 
模型 中 识别 还 是 可 以 通过 不 等 式 约束 与 协 方 差 约 束 来 得 以 保证 。 

如 果 三 上 不 存在 约束 ,是 B 的 对 角 元 素 正 规 化 为 1, 那么 关于 识别 的 必要 条 件 
(necessary condition) 是 阶 条 件 C(order condition) ,这 表示 被 排除 的 外 生变 量 的 个 数 
必须 至 少 等 于 所 包括 的 内 生变 量 的 个 数 。 在 许多 文献 中 都 给 定 ,充分 条 件 (suffi- 
cient condition) 是 秩 条 件 (rank condition) ,这 保证 第 ; 个 方程 参数 TI 二 一 B, 产 
生 给 定 I 时 (T;，B,;) 的 唯一 解 。 

已 知识 别 ,恰好 识别 Ljust (exact) identification] 术 语 是 指 阶 条 件 得 以 准确 满 
足 的 情况 ;过 度 识 别 (Coveridentification ) 是 指 ,方程 组 上 的 约束 个 数 超过 恰好 识别 
所 需要 的 个 数 。 

溺 根 (Sargan，1988) 曾 经 讨论 非 线 性 SEM 中 的 识别 ,他 还 给 出 与 之 相关 的 早 
期 参考 文献 。 


2.6 单方 程 模型 


为 了 不 失 一 般 性 ,考察 约束 于 正规 化 Bi 二 1 的 线性 SEM 的 第 一 个 方程 。 设 
y 二 1, 令 yi 表示 yy 的 内 生成 分 而 不 是 yi ,并 且 令 2 表示 2z 的 外 生成 分 ,满足 : 
y=yatay+u (2. 20) 
许多 形式 都 遗 尘 了 涉及 从 方程 组 到 单方 程 的 正式 步骤 ,并 且 从 回归 方程 
y 一 X B+u 
开始 ,其 中 ,x 的 某 些 成 分 是 内 生 的 (以 显 性 方式 wm ) ,而 其 他 一 些 成 分 是 外 生 的 (以 
显 性 方式 五 )。 于 是 ,关注 的 内 容 是 去 估计 依赖 于 重要 回归 元 变动 的 影响 ,该 重要 
回归 元 可 以 是 内 生 的 也 可 以 是 外 生 的 ,这 一 点 依赖 于 假设 。 工 具 变 量 或 者 两 阶段 
最 小 二 乘法 估计 是 最 显然 的 估计 策略 (参见 4.8 节 、6.4 市 以 及 6.5 节 )。 
在 SEM 方法 中 ,至 少 去 设 定 模型 中 某 些 剩余 的 方程 ,这 是 很 自然 的 ,即使 剩余 
方程 并 不 是 研究 的 关注 上 点。 假定 y! 具有 维 数 1。 于 是 ,第 一 种 可 能 性 是 去 设 定 关 
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于 y' 的 结构 方程 ,以 及 在 关于 y, 的 这 个 结构 方程 中 会 出 现 的 其 他 内 生变 量 的 结 
构 方程 。 第 二 种 可 能 性 是 去 设 定 关于 y, 的 简化 式 方程 。 这 将 证 明 , 影 响 y, 的 外 
生变 量 并 不 直接 影响 y。 一 个 优点 是 ,在 这 样 的 设置 下 ,工具 变量 自然 会 出 现 。 然 
而 ,在 最 近 的 实证 研究 工作 中 ,在 单方 程 设置 中 利用 工具 变量 ,甚至 要 避免 写 出 关 
于 右边 内 生变 量 的 简化 式 正式 步骤 。 


2.7 ”潜在 结果 模型 


当 关 注 于 公共 政策 的 影响 和 /或 关于 某 种 特定 结果 的 私人 决策 变量 时 ,经 济 计 
量 模型 中 因果 推断 的 动机 就 特别 强 。 一 些 特定 的 事例 包括 转移 文 付 对 劳动 力 供 给 
的 影响 .班级 大 小 对 学 生 学 习 的 影响 ,以 及 健康 保险 对 保健 的 影响 。 在 许多 情况 
下 ,因果 变量 本 身 就 反映 个 体 决 策 , 因 此 ,因果 变量 潜在 地 是 内 生 的 。 正 如 通常 情 
况 一 样 , 当 经 济 计 量 估 计 与 推断 建立 在 观测 数据 (observational data) 基础 之 上 ,就 
对 因果 参数 的 识别 与 推断 提出 了 许多 挑战 。 如 果 因 果 问 题 是 利用 出 自 受 控 的 正常 
统计 设计 的 社会 实验 (social experiment) 的 数据 ,那么 这 些 挑战 潜在 地 缺乏 严 说 
性 。 尽 管 这 类 实验 可 以 实施 (参见 3. 3 节 的 例子 及 详细 内 容 ) ,一 般 来 说 ,实验 的 组 
织 与 执行 是 昂贵 的 。 因 此 ,更 引 人 注 目的 是 ,利用 由 有 自然 实验 (natural experiment) 
所 生成 的 数据 或 者 在 拟 实验 设置 下 实施 因果 建 模 。3. 4 节 讨 论 这 些 数据 结构 的 优 
缺点 ;如 果 没 有 现存 目的 ,人 们 就 应 该 把 自然 实验 或 拟 实验 看 成 是 一 种 设置 , 即 某 
个 因果 变量 外 生 的 变动 , 且 与 其 他 解释 变量 独立 ,这 样 会 使 得 识别 因 采 参数 相对 容 
多 一 些 。 

因果 性 建 模 的 主要 障碍 出 于 因果 推断 的 基本 问题 (fundamental problem of 
causal inference)[ 替 兰 (Holland, 1986) ]。 设 了 基 表 示 已 假定 的 原因 ,而 Y 表示 结 
果 。 通 过 对 XX 值 的 操作 ,我 们 就 能 改变 Y 的 值 。 假 定 X 的 值 从 zi 变动 到 x;。 于 
是 ,通过 比较 Y 的 两 个 值 来 测量 该 变动 对 Y 的 因果 影响 :y 是 由 该 变动 引起 的 , 而 
yi 是 x 没有 发 生变 动 时 所 具有 的 结果 。 然 而 ,如 果 X 为 变动 的 ,那么 Y 的 值 在 缺 
乏 X 变动 下 是 不 会 被 观测 到 的 。 因 此 ,在 缺乏 X 变动 的 情况 下 ,如 有 果 没 有 关于 YY 
具有 什么 值 的 假设 ,对 于 因果 影响 就 没有 什么 可 讲 的 。 后 者 可 称 为 反 了 事实" 
(counterfactual) , 意味 着 假设 不 可 观测 的 值 。 简 略 地 讲 , 所 有 因果 推断 都 涉及 一 个 
事实 与 一 个 反 事 实 结果 的 比较 。 在 传统 经 济 计 量 模型 (比如 ,SEM) 中 ,并 不 需要 以 
显 性 方式 表述 反 事 实 。 

在 微观 经 济 计量 文献 中 ,一 个 相对 比较 新 的 领域 是 项 目 评 佑 (problem evalua- 
tion) 或 者 处 置 评估 (treatment evaluation) , 它 提供 了 估计 因果 参数 的 统计 框架 。 在 
统计 文献 中 ,这 种 框架 还 统称 为 鲁 宾 因 果 模 型 (Rubin causal model，RCMD) ,这 样 做 
是 承认 和 鲁 宾 早期 的 重要 贡献 ,而 鲁 宾 也 是 从 该 方法 创始 人 R. A. 费 布 泵 (R. A. 
Fisher) 那 里 引用 的 。 尽 管 依照 最 近 的 习惯 ,我 们 把 这 称 为 鲁 宾 因果 模型 ,但 是 斯 
普 拉 瓦 一 内 曼 (Splawa-Neyman) 在 1923 年 以 波兰 文 发 表 的 一 篇 文章 中 同样 提出 


[12] 又 称 为 反 事 实 框架 。 一 一 译 者 注 
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了 一 种 类 似 的 统计 模型 ;参见 内 曼 (Neyman，1990) 。 在 经 济 计量 学 中 ,涉及 反 事 
实 的 模型 则 是 沿 着 罗 伊 (Roy，1951) 的 原创 研究 工作 而 独立 发 展 起 来 的 。 本 节 璋 
下 的 内 容 将 分 析 RCM 的 显著 特征 。 z 

建立 在 反 事 实 基础 之 上 的 因果 参数 提供 了 因果 性 的 统计 意义 与 操作 意义 ,这 
在 许多 方面 有 别 于 传统 的 考 尔 斯 基本 定义 。 第 一 ,在 理想 设置 下 ,此 框架 导致 一 些 
经 济 计 量 方 法 相当 人 简单。 第 二 ,一 般 地 讲 , 此 框架 只 关注 少数 几 个 (fewetr) 被 认为 
与 所 要 检验 的 政策 问题 最 为 相关 的 因果 参数 。 这 与 同时 关注 于 所 有 结构 参数 的 传 
统 经 济 计 量 方法 形成 对 比 。 第 三 ,该 方法 提供 了 对 由 标准 结构 方法 所 估计 的 因果 
参数 性 质 的 其 他 见解 。 


2.7.1 每 修了 因此 模型 


“处 理 ” 这 一 术语 与 “原因 ”可 以 交换 使 用 。 在 医学 新 药 评估 的 研究 中 ,涉及 那 
些 接 受 治 疗 与 那些 没有 接受 治疗 的 组 ,已 治疗 组 的 药物 反应 与 那些 未 治疗 组 的 情 
况 相 比较 。 对 因果 影 啊 的 测量 是 已 治疗 组 结果 与 未 治疗 组 情况 的 平均 差 。 在 经 济 
学 中 ， 处 理 " 这 一 术语 使 用 得 非常 广泛 。 它 涵盖 了 对 某 种 结果 有 影响 的 所 有 变量 ， 
而 这 里 的 某 种 结果 就 是 研究 的 目标 。 处 理 结 果 时 的 一 些 事例 包括 受 教 育 与 工资 、 
班级 大 小 与 学 业 成 绩 、 职 业 培 训 与 收入 。 注 意 , 处 理 不 要 求 是 外 生 的 ,并 且 在 许多 
情况 下 , 它 是 内 生 的 (选择 ) 变 量 。 

在 潜在 结果 模型 (potential outcome model ，POMD 框架 下 ,假定 对 象 总 体 的 每 
一 个 元 素 潜在 地 面临 处 理 , 三 元 组 (yi;，yo;，Di) ,i 二 1,…,N 构成 处 理 评 估 的 基 
础 。 当 接受 处 理 或 未 接受 处 理 时 ,类 别 变量 D 分别 取 值 1 与 0; yi 测度 个 体 i 接受 
处 理 的 啊 应 ,而 yo 测度 未 接受 处 理 时 的 情况 。 也 就 是 说 : 


-1 如果 D.=] 
Vois 如 末 D; 二 0 


对 于 个 体 ; 来 说 ,由 于 接受 处 理 与 未 接 有 党 处 理 是 互 斥 的 表述 ,所 以 对 任何 给 定 
的 i, 两 个 测量 仅 有 一 个 是 可 以 利用 的 ,没有 利用 的 测量 是 反 事 实 。 原 因 D 对 个 体 
i 的 结果 效应 是 由 (Cy; 一 yo;) 来 计算 的 。D; 二 1 相对 于 D; 二 0 的 平均 因果 效应 是 由 
平均 处 理 效 应 (average treatment effect,ATE) 来 计算 的 : 


ATE=FE[y|D=1]—Efy|iD=0] (2. 22) 


其 中 ,期 望 与 对 象 总 体 的 概率 分 布 有 关系 。 与 强调 边际 效应 的 传统 结构 不 间 ， 
POM 框架 则 强调 ATE 以 及 与 之 相关 的 参数 。 

对 ATE 类 型 参数 进行 估计 的 实验 方法 ,涉及 通过 对 作为 控制 的 未 处 理 情况 集 
合 的 结果 进行 比较 而 引起 的 随机 指派 (random assignment) 。 这 类 实验 设计 将 在 
第 3 蕴 中 以 更 详细 的 方式 加 以 阐述 解释 。 随 机 指派 缠 含 着 面临 处 理 的 个 体 被 随机 
选取 ,因此 ,处 理 指派 并 不 依赖 于 结果 ,而 且 与 被 处 理 问 题 的 属性 是 不 相关 的 。 有 
两 种 简化 方法 如 下 。 如 果 某 些 相 关 变 量 不 可 避免 地 从 回归 中 被 省 略 掉 , 人 处 理 变 量 
就 被 处 理 成 外 生 的 ,而 且 其 在 线性 回归 中 的 系数 将 不 受到 省 上 略 变 量 的 偏重 的 妨碍 。 


(2. 21) 
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在 某 种 条 件 下 , 即 在 第 3 章 与 第 25 章 将 以 更 长 篇 幅 讨 论 的 条 件 下 ,在 被 处 理 组 的 
结果 与 控制 组 之 间 的 平均 将 提供 ATE 的 估计 。 对 设计 良好 的 回报 就 是 对 于 所 做 
出 的 那 种 因果 表述 具有 相对 的 简单 性 。 当 然 , 为 了 确保 处 理 效应 估计 具有 高 度 的 
统计 精度 ,人 们 还 应 该 控制 同样 影响 到 结果 的 那些 属性 。 

由 于 处 理 的 随机 指派 一 般 来 讲 在 经 济 学 中 是 不 可 行 的 ,所 以 对 ATE 类 型 参数 
进行 估计 ,必须 建立 在 非 随 机 处 理 指派 生成 的 观测 数据 基础 上 。 因 而 ,对 ATE 进 
行 一 致 估计 将 会 受到 几 个 困难 的 威胁 ,例如 ,这 些 威胁 包括 结果 在 处 理 之 间 的 可 能 
相关 性 .省略 变量 以 及 处 理 变量 内 生性 。 一 些 经 济 计量 学 家 曾 建议 ,缺乏 随机 化 构 
成 了 获得 令 人 信服 的 有 关 因 果 关 系 的 统计 推断 的 主要 障碍 。 

如 果 反 事实 能 够 得 到 清楚 的 表述 并 得 到 证 实 , 那 么 潜在 结果 可 以 产生 因果 陈 
述 。 对 反 事 实 进行 明显 的 陈述 是 这 种 模型 的 重要 特征 ,对 什么 应 该 加 以 比较 的 含 
义 清 晰 可 见 。 如 同 具 有 观测 数据 的 情况 一 样 , 如 果 缺 少 被 观测 的 量 与 反 事 实 的 量 
之 间 清 晰 的 差别 ,那么 对 谁 被 处 理 影响 了 的 问题 仍 是 不 清楚 的 。ATE 是 一 种 对 特 
定子 总 体 的 边际 啊 应 加 权 并 组 合 的 测量 。 特 定 的 假设 要 求实 施 反 事实 。 对 于 能 够 
观测 到 的 被 处 理 单位 的 信息 ,以 及 未 被 处 理 单位 的 信息 ,都 需要 去 估计 ATE。 例 
如 ,如 果 处 理 不 能 被 应 用 ,那么 必须 要 识别 代表 被 处 理 组 的 未 被 处 理 组 。 这 种 步 又 
总 是 能 够 得 以 执行 ,这 样 的 要 求 不 一 定 正确 。 在 选择 处 理 准 确 方 式 上 ,涉及 在 第 3 
章 和 第 25 章 将 要 讨论 的 抽样 设计 问题 。 

POM 的 第 二 个 有 用 特征 是 , 它 可 以 识别 由 自然 实验 或 拟 实验 所 产生 的 因果 建 
模 的 机 会 。 当 数据 在 这 种 设置 下 得 以 生成 时 ,而 且 倘 车 某 些 其 他 条 件 得 到 满足 ,如 
条 没有 SEM 框架 的 全 部 复杂 性 ,就 会 产生 因果 建 模 。 这 一 问题 在 第 3 章 和 第 25 
章 将 会 进一步 得 到 分 析 。 

第 三 ,与 SEM 结构 形式 一 一 所 有 变量 除 被 解释 变量 以 外 都 能 够 被 标记 为 “ 原 
因 -一 一 不 同 ,在 POM 中 ,并 不 是 所 有 解释 变量 都 能 够 被 当 作 原因 的 。 许 多 都 是 
在 回归 分 析 中 必须 加 以 控制 的 单元 属性 , 而 属性 不 是 原因 [ 赴 兰 (Holland， 
1986) |。 表示 原因 的 参数 必须 是 相对 于 那 种 实际 或 潜在 地 、 直 接 或 间接 地 受 限于 
干预 的 变量 而 言 的 。 

最 后 ,ATE 参数 的 可 识别 性 或 许 是 比较 容易 研究 的 目标 ,因此 ,在 不 是 完全 
SEM 的 可 识别 性 的 一 些 地 方 ,ATE 参数 可 识别 性 是 可 行 的 [ 安 格 里 斯 特 (Angrist， 
2001) ]。 是 否 如 此 ,必须 在 逐一 情况 的 基础 上 进行 确定 。 然 而 ,许多 可 利用 的 
POM 应 用 ,典型 地 使 用 有 限 的 而 不 是 完全 信息 框架 。 然 而 ,甚至 在 SEM 框架 内 ， 
正如 前 面 曾 讨论 的 ,使 用 有 限 的 信息 框架 同样 是 可 行 的 。 


2.8 因果 建 模 及 估计 策略 


在 本 市 ,我 们 简略 地 叙述 经 济 计量 学 家 以 许多 不 同 的 途径 对 因果 关系 进行 建 
模 的 方法 。 这 些 方法 既 可 用 于 SEM 答 染 内 ,又 可 用 于 POM 框架 内 ,但 对 于 前 者 
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2.8. 1 砍 草 痊 架 


完全 信息 结构 模型 

这 种 方法 的 一 种 变性 建立 在 以 外 生变 量 为 条 件 的 内 生变 量 的 联合 分 布 参数 的 
设 定 基础 上 。 一 些 关系 不 一 定 要 从 最 优化 的 行为 模型 中 推导 出 来 。 设 置 参 数 约束 
是 为 了 确保 模型 参数 的 识别 ,模型 参数 是 统计 推导 的 目的 。 整 个 模型 可 利用 极 大 
似 然 法 或 基于 和 矩 的 估计 来 得 到 联合 估计 。 我 们 称 这 种 方法 为 完全 信息 结构 方法 
(full-information structural approach) 。 对 于 设 定 良好 的 模型 来 说 ,这 是 一 种 吸引 
人 的 方法 ,但 是 ,通常 其 潜在 局 限 性 是 , 它 可 以 包括 某 些 设 定 欠 佳 的 方程 。 

在 统计 形式 上 ,我 们 可 以 将 完全 信息 方法 解释 成 为 ,给 定 外 生变 量 . 内 生变 量 
的 联合 概率 分 布 而 形成 的 对 因果 性 进行 推断 的 基础 的 一 种 方法 。 接 合 点 是 从 内 生 
变量 之 间或 内 生变 量 与 方程 扰动 项 之 间 的 同期 相互 依存 性 或 动态 相互 依存 性 推导 
出 的 。 

有 限 信息 结构 模型 

与 之 相 比 , 当 统 计 推 导 的 中 心目 标 是 对 一 个 或 者 两 个 重要 参数 进行 估计 ,就 可 
以 使 用 有 限 信息 (limited-information) 方 法 。 这 种 方法 的 一 个 特征 是 ,尽管 一 个 方 
程 是 推断 的 中 心 ,但 是 可 利用 该 方程 与 其 他 内 生变 量 之 间 的 联合 依赖 性 。 这 就 需 
要 关于 模型 某 些 特征 的 并 不 作为 推断 的 主要 目标 的 显 性 假设 。 工 具 变量 法 . 序 贯 
多 步 法 以 及 有 限 信 息 极 大 似 然 法 都 是 这 一 方法 的 特例 。 为 了 实施 该 方法 ,人 们 一 
般 用 一 个 (或 多 个 ) 结 构 方程 与 一 些 以 隐 性 或 显 性 方式 表述 出 的 简化 方程 进行 。 这 
与 全 部 方程 都 为 结构 的 完全 信息 方法 形成 了 对 照 。 有 限 信 息 方法 在 计算 机 处 理 方 
面 常常 比 完全 信息 方法 更 容易 。 

在 统计 形式 上 ,我 们 将 有 限 信 息 方法 解释 为 ,把 联合 分 布 因 式 分 解 为 所 关注 的 
内 生变 量 ( 比 如 说 yj ) 的 条 件 模型 与 其 他 内 生变 量 ( 比 如 说 y) 的 边际 模型 的 乘积 的 
一 种 方法 , 它 是 一 些 条 件 变 量 的 集合 ,如 同 . 


fly|x, 90) 一 CCYi |x, 了 2 ， 0 ) 严 (Yy: | X， 02 ) ， Oc (2. 23) 


如 果 g 被 认为 是 元 余 参 数 (nuisance parameters) ,那么 模型 就 可 以 建立 在 对 h(y, | 
x，0; ) 最 少 关 注 的 gl(yi |x，y ，0 ) 成 分 基础 上 。 当 然 , 这 种 因 式 分 解 不 是 唯一 的 ， 
因而 ,有 限 信息 方法 能 够 有 几 种 变化 形式 。 

可 识别 的 简化 式 

SEM 方法 的 第 三 种 变化 形式 是 以 可 识别 简化 式 来 进行 的 。 这 里 ,人 们 还 是 对 
结构 参数 感 兴趣 。 然 而 ,从 受 限于 约束 的 简化 式 中 去 估计 结构 参数 是 方便 的 。 在 
时 间 序 列 中 ,可 识别 呵 量 自 回归 提供 了 一 个 事例 。 


2. 8.2 黄 刊 借 紫 


存在 许多 潜在 途径 ,使 得 对 重要 模型 参数 的 识别 受到 危害 。 省 略 变 量 、 聘 数 形 
式 错 误 设 定 .解释 变量 中 的 测量 误差 .利用 总 体 的 非 代表 性 数据 ,以 及 忽略 解释 变 
量 的 内 生性 ,都 是 一 些 重要 的 事例 。 微 观 经 济 计量 学 包括 了 如 何 解 决 这 些 问 题 的 
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许多 特定 事例 。 安 格 里 斯 特 和 克 角 格 (Angrist and Krueger，2000) 曾 提供 对 劳动 
经 济 学 中 普遍 流行 的 识别 策略 的 一 个 综述 ,强调 了 POM 框架 。 本 书 其 他 地 方 对 
许多 这 类 问题 加 以 发 展 , 但 这 里 仍 是 简略 的 提 及 。 

外 生化 

数据 有 时 是 由 自然 实验 与 拟 实验 生 成 的 。 这 里 的 思想 就 是 ,政策 变量 对 于 某 
些 子 总 蛋 而 言 可 以 是 外 生 的 变动 ,而 它 对 于 其 他 子 总 体 而 言 仍 是 相同 的 。 例 如 ,最 
低 工 资 法 在 一 个 州 内 可 以 是 变动 的 ,而 在 其 邻近 州 内 仍 保持 不 变 。 这 样 的 事件 自 
然 创 造 了 处 理 组 与 控制 组 (对 照 组 )。 如 果 自 然 实 验 近 似 于 一 个 随机 化 处 理 安排 ， 
那么 利用 这 种 数据 去 估计 结构 参数 , 比 对 含有 内 生 处 理 变 量 的 较 大 联 立 方程 模型 
进行 估计 更 简单 。 还 有 一 种 可 能 ,自然 实验 中 的 处 理 变量 可 以 被 看 成 外 生 的 ,但 处 
理 本 号 却 不 是 随机 指派 的 。 

别 除 元 余 函 数 

在 有 大 量 元 余 函 数 的 情况 下 ,识别 会 受到 威胁 。 例 如 ,在 横 截 面 回归 模型 中 ， 
条 件 均值 函数 ELy;|x; | 可 以 包括 特定 个 体 固 定 效应 w ,假定 与 回归 误差 是 相关 
的 。 如 果 每 一 个 个 体 都 没有 许多 观测 值 (比如 ,面板 数据 ) ,这 一 效应 就 不 能 是 可 识 
别 的 。 然 而 , 珊 有 短 面 板 的 数据 ,通过 模型 变换 能 够 把 固定 效应 剔除 掉 。 另 外 一 个 
事例 是 存在 不 随时 间 而 变 并 且 不 可 观测 的 外 生变 量 , 该 外 生变 量 对 一 些 个 体 组 而 
言 却 是 共同 的 。 在 剔除 固定 效应 的 变换 事例 中 ,通过 对 模型 取 差 分 和 差分 的 差 分 
来 进行 。 

控制 混淆 

当 一 些 变量 从 回归 中 被 省 略 掉 , 并 且 当 省 略 因素 与 包含 的 变量 相关 时 , 混 请 仿 
倚 就 产生 了 。 例 如 ,在 把 收入 作为 因 变量 与 把 受 教育 作为 解释 变量 的 回归 中 ,个 人 
能 力 可 以 被 看 成 是 被 省 略 的 变量 ,因为 它 通 常 仪 仅 是 不 完美 代表 。 这 意味 着 受 教 
育 变 量 的 系数 潜在 地 不 是 可 识别 的 。 一 种 可 行 的 策略 是 要 在 模型 中 引 和 人 控制 变量 
(control variables) ; 这 一 通用 方法 称 为 控制 图 数 方 法 Ccontroil function approach ) 。 
这 些 臣 量 试图 去 逼近 省 略 变量 的 影响 。 例 如 ,各 种 形式 的 学 术 成 就 得 分 可 以 作为 
对 能 力 的 控制 。 

创建 综合 样本 

在 POM 框架 下 ,因果 参数 可 以 是 不 可 识别 的 ,因为 没有 合适 的 比较 或 者 对 照 
组 (控制 组 ) 去 提供 关于 估计 的 一 个 基准 。 潜 在 解决 方法 是 创建 一 个 综合 样本 , 它 
包括 作为 代表 控制 的 比较 组 。 这 种 样本 是 由 配对 (matching) 创 建 的 (在 第 25 章 讨 
论 )。 如 果 人 处 理 组 能 外 Q 民 好 配对 控制 所 扩大 ,那么 对 因果 参数 的 识别 在 与 ATE 相 
关 的 参数 得 到 估计 的 意义 上 可 以 完成 。 

工具 变量 

如 果 因 为 处 理 变量 是 内 生 的 ,识别 处 于 危及 境地 ,那么 一 种 标准 的 解决 方法 是 
使 用 有 效 的 工具 变量 。 说 比 做 更 容易 一 些 。 对 工具 变量 的 选择 是 敏感 的 。 在 4.8 
节 、4.9 廊 ,.6.4 节 、6.5 节 和 25.7 太 ,以 及 书 中 的 其 他 几 个 地 方 ,部 对 该 方法 进行 
了 分 析 。 男 一 方面 ,自然 实验 可 以 提供 有 效 的 工具 ， 

重新 对 样本 加 权 

如 果 样 本 数据 是 总 体 的 代表 ,那么 以 此 样本 为 基础 对 总 体 进行 推断 才 是 有 效 
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的 。 当 样本 数据 不 具有 代表 性 时 ,就 产生 样本 选择 问题 或 有 偏 抽样 ,此 时 总 体 参 数 
是 不 可 识别 的 。 要 解决 这 种 问题 ,需要 对 样本 选择 进行 修正 的 方法 (第 16 章 ) ,或 
者 需要 对 样本 信息 重新 加 权 的 方法 。 


2.9 文献 注释 


2.1 由 赫 克 曼 和 麦克 法 登 所 提供 2001 年 诺 贝尔 奖 演讲 稿 , 是 关于 微观 经 济 
计量 学 发 展 的 既 具 有 历史 信息 又 具有 当前 信息 的 珍贵 资料 。 替 克 曼 的 演讲 着 重 于 
- 对 其 综合 概述 ,并 且 对 微观 经 济 计量 学 的 许多 方面 提出 了 相当 多 的 见解 。 他 对 异 
质 性 的 讨论 有 许多 要 点 与 本 书 所 涵盖 的 几 个 专题 相 联系 。 

2.2 马 软 死 (Marschak，1953) 给 出 关于 对 政策 评价 的 结构 建 模 的 最 初 经 典 
陈述 。 他 很 早 就 握 及 参数 不 变性 的 思想 。 

2.3 恩格尔 . 享 德 里 和 理 查 德 (Engle，Hendry，and Richard，1983) 曾 提出 ， 
利用 可 观测 变量 的 分 布 来 定义 弱 外 生性 与 强 外 生性 。 他 们 把 先前 文献 中 关于 外 生 
性 的 一 些 概 念 联系 起 来 。 

2.4 和 2.5 “识别 ”术语 是 库 普 曼 (Koopmans，1949) 使 用 的 。 大 部 分 教科 书 
者 少 盖 了 线性 参数 模型 中 的 点 识别 ,包括 由 萨 根 (Sargan，1988) 给 出 的 一 种 综合 
而 简明 的 研究 .戴维森 和 麦 金 农 (Davidson and Mackinnon，2004), 以 及 格林 
(Greene，2003) 的 着 作 。 占 里 耶 克 斯 和 蒙 福特 (Gourieroux and Monfort，1989 ， 
第 3 章 、 第 4 章 ) 提 供 一 种 利用 费 希 尔 和 库 尔 贝 克 (Fisher and Kullback) 信 息 测 量 
的 不 同 观点 。 在 几 种 重要 情况 下 , 界限 识别 是 由 曼 斯 基 发 展 起 来 的 (Manski， 
1995 ) 。 

2.6 赫 殉 灾 (Heckman，2000) 提 供 传统 经 济 计 量 学 模型 中 因果 性 的 历史 概 
宛 和 现代 解释 。 在 POM 框架 下 的 因果 概念 是 由 霍 兰 (Holland，1986)? 仔 细 而 深刻 
地 进行 分 析 , 他 还 将 其 他 一 些 定 义 联系 起 来 。 从 历史 观点 来 看 ,关于 因果 性 的 统计 
学 家 观点 的 一 个 事例 是 由 弗 里 德 曼 (Ereedman，1999) 建 立 的 。 玻 尔 (Pearl，2000 ) 
给 出 将 “因果 关系 处 理 成 为 在 干预 下 的 行为 概括 ”思想 的 精彩 图 式 阐 述 ,并 在 非 实 
验 情 形 下 推断 因果 关系 的 众多 问题 。 

2.7 安 格 里 斯 特 和 克 和 鲁 格 (Angrist and Krueger,，1999) 利 用 劳动 经 济 学 的 事 
例 , 求 解 了 识别 陷阱 。 
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3.1 5 引 论 


本 章 将 概述 各 种 类 型 的 微观 经 济 数据 的 潜在 用 途 和 局 限 性 。 微 观 经 济 计量 学 
中 最 广泛 使 用 的 数据 结构 是 调查 或 人 口 普查 数据 。 这 些 数据 通常 称 为 观测 数据 
(observational data) , 以 此 将 它们 与 实验 数据 (experimental data) 相 区 别 。 

本 章 讨论 前 面 提 及 的 数据 结构 的 潜在 局 限 性 。 此 外 ,观测 数据 的 内 在 局 限 性 
是 以 搜集 数据 的 方式 混合 而 成 的 , 即 通 过 样本 框 ( 样 本 生成 方式 ) .样本 设计 (简单 
随机 抽样 到 分 层 随 机 抽样 ) 以 及 样本 范围 ( 横 截 面 到 纵向 数据 ) 的 方式 。 因 此 ,我 们 
讨论 与 使 用 观测 数据 相关 的 一 些 抽样 问题 。 在 这 一 层面 上 ,有 些 数据 是 加 新 的 ,本 
章 稍 后 对 它们 加 以 阐述 。 

在 简单 随机 抽样 假设 下 ,微观 经 济 计量 学 超越 调查 数据 分 析 的 范围 。 本 章 考 
察 一 些 扩 展 形势 。3. 2 节 概 述 多 阶段 样本 调查 的 体系 以 及 偏离 随机 抽样 的 某 些 普 
” 遍 形 式 ; 稍 后 一 些 章节 提供 对 它们 在 统计 意义 上 的 更 详尽 的 分 析 。 此 外 ,考察 导致 
数据 不 一 定 代 表 总 体 的 一 些 复杂 性 。 如 果 因 果 参 数 中 缺少 观测 数据 ,就 增加 利用 
实验 数据 或 半 实 验 数 据 以 及 一 些 框架 组 织 。3. 3 市 考察 源 自 社会 实验 的 可 能 性 。 
3. 4 节 考 察 由 特定 的 观测 数据 类 型 产生 的 建 模 机 会 ,该 特定 观测 数据 是 在 半 实 验 
条 件 下 生成 的 ,这 自然 提供 已 处 理 的 与 未 处 理 的 对 象 , 因 此 称 之 为 目 然 实验 。3. 5 
节 涵 盖 微 观 数据 管理 的 实际 问题 。 


3.2 ”观测 数据 


微观 经 济 观测 数据 的 主要 来 源 , 是 对 住户 .厂商 的 调查 以 及 政府 管理 数据 。 人 
口 普查 数据 也 可 以 用 于 生成 样本 。 许 多 其 他 样本 往往 是 在 交易 伙伴 之 间 交 往 时 生 
成 的 。 例 如 ,市 场 数据 是 在 出 售 时 生成 的 ,或 在 (实际 的 或 潜在 的 ) 购 头 者 之 间 调 铺 
生成 的 。 因 特 网 (例如 ,网 上 拍卖 ) 也 是 数据 来 源 。 

从 调查 统计 学 家 和 调查 数据 使 用 者 的 观点 来 看 ,样本 调查 方面 存在 看 大 量 的 
文献 。 前 者 讨论 如 何 从 总 体 进行 抽样 以 及 从 各 种 不 同 抽样 设计 中 所 得 到 的 结 琳 ， 
而 后 者 讨论 利用 各 种 抽样 设计 收集 调查 数据 时 所 产生 的 估计 和 推论 。 关 键 问 题 
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年 ,样本 如 何 更 好 地 代表 总 体 。 本 章 以 一 种 介绍 方式 来 讨论 文献 的 这 两 个 方面 。 
其 他 一 些 细节 将 在 第 24 章 给 出 。 


3.2.1 将 查 数 据 的 特性 


观测 数据 这 一 术语 通常 意 指 ,在 没有 任何 企图 控制 索要 抽样 数据 的 特征 下 , 通 
过 抽取 对 象 的 相关 总 体 而 收集 到 的 调查 数据 。 设 上 表示 时 间 下 标 , 设 w 表示 关注 
变量 的 集合 。 在 当前 背景 下 ,t 可 以 是 一 个 时 间 点 或 时 间 区 间 。 设 5, 表示 源 于 总 
体 概 率 分 布下 (Cw,10) 的 样本 ;S, 是 从 FCw19,) 中 抽取 的 ,其 中 ,9 表示 参数 向 量 ， 
总 体 应 该 被 看 成 具有 关注 特征 的 点 的 集合 ,而 且 为 了 简单 起 见 ,我 们 假定 概率 分 布 
F 的 形式 是 已 知 的 。 简 单 随机 抽样 方案 允许 总 体 的 每 一 个 元 素 进入 样本 的 概率 是 
相等 的 。 更 复杂 的 抽样 方案 稍 后 将 加 以 考虑 。 

平稳 总 体 (stationary population) 的 抽象 概念 提供 一 种 有 用 的 基准 。 如 果 总 体 
特征 的 和 矩 都 是 常 值 ,那么 我 们 可 以 写成 0. 二 0, 对 于 所 有 t。 这 是 一 个 强 假 设 , 因 为 
它 意味 着 ,总 体 特 征 的 矩 都 是 时 常 值 。 例 如 ,年 龄 一 性 别 分 布 应 该 是 常 值 。 更 为 切 
合 实际 地 讲 , 某 些 总 体 特 征 不 是 常 值 。 为 了 处 理 这 种 可 能 性 ,每 个 总 体 ( 的 参数 ) 可 
以 被 看 成 从 具有 常 值 特征 的 超 总 体 (superpopulation) 中 抽取 的 。 具 体 来 说 ,我 们 认 
为 ,每 个 98 是 从 具有 篆 值 ( 超 ) 参 数 9 的 概率 分 布 中 抽取 的 。 在 第 24 章 讨论 的 层次 
模型 方面 的 文献 中 ,经 党 出 现 超 总 体 与 超 参数 术语 。 如 果 0. 具有 演化 分 量 , 那 么 
便 引 发 男 外 的 复 术 性 ,例如 ,自始至终 依 赖 于 1, 或 者 逐次 值 是 相互 依存 的 。 如 同 第 
13 章 和 第 26 章 所 讨论 的 ,利用 层次 模型 ,将 提供 对 超 参 数 与 子 总 体 特征 之 间 关 系 
进行 建 模 的 一 种 方法 。 


3.2.2 人 蚀 音 随机 样本 


作为 后 面 讨论 的 一 个 基准 ,考察 简单 随机 抽样 ,对 于 所 有 的 ;从 容量 为 N 的 
总 体 中 抽取 单元 i 的 概率 是 1/N ,其 中 ,N 很 大 。 把 w 分割 成 Ly :zj。 假 定 我 们 的 
兴趣 在 于 对 y 进行 建 模 ,y 是 以 外 生 协 变量 回 量 x 为 条 件 的 可 能 回 量 取 值 的 结果 
变量 ,其 联合 分 布 记 为 f(y， x)。 它 能 够 因 式 分 解 成 为 条 件 分 布 fc(y|x,， 09) 与 边 
缘分 布 An (Xx) 的 积 . 


fi(y, x)= fecCy|x, 0) fu (xX) (3. 1) 
简单 随机 抽样 (simple random sampling) 包 含 从 整个 总 体 中 均匀 抽取 的 (y，x) 


组 合 。 
3. 2.3 多 阶段 漂 查 


一 种 可 供 选 择 的 方案 是 分 层 多 阶段 整 群 抽样 (stratified muitistage cluster sanmr 
pling) , 也 称 为 复杂 调查 (complex survey) 方 法 。 大 范围 调查 ,譬如 当前 人 口 调查 
(CPS) 和 收入 动态 面板 数据 调查 (PSID) ,都 采用 这 一 方法 。24. 2 节 对 CPS 的 体系 
提供 额外 的 详细 内 容 。 

复 洲 调查 设计 拥有 许多 优点 。 因 为 该 方法 减少 地 理 差异 ,所 以 它 具 有 更 高 成 
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本 且 有 效 , 而 且 可 能 是 以 更 彻底 的 形式 抽取 某 些 子 总 体 。 例 如 ,对 较 小 的 子 总 体 过 
度 抽 样 会 表现 出 某 些 相关 的 特征 ,这 是 可 行 的 ,然而 对 总 体 的 随机 样本 抽样 会 产生 
太 少 的 观测 值 ,不 能 支持 可 徘 的 结果 。 其 缺点 是 ,分 层 抽 样 将 减少 个 体 间 的 变异 ， 
这 在 本 质 上 有 助 于 给 出 较 高 的 准确 性 。 

样本 调查 文献 关注 于 多 阶段 调查 (multistage surveys) , 它 把 总 体 按 次 序 分 割 成 
以 下 类 别 : 

1， 层 (Cstrata) :把 总 体 彻 底 分 割 为 互补 相交 的 一 些 子 上 总体。 

2. 初级 抽样 单元 (primary sampling units) (PSUs): 对 层 分 割 成 互 不 相交 的 

子 焦 。 

3. 第 二 级 抽样 单元 (secondary sampling units)(SSUs) :对 PSU 分 割 成 一 些 子 

单元 ,可 以 依次 分 割 下 去 ,等 等 。 

4， 最 终 抽样 单元 Cultimate sampling unit)(USU) :选择 最 终 单 元 进行 采访 , 它 

可 以 是 一 个 住户 或 者 一 些 住户 的 集体 ( 段 ) 。 

举 一 个 事例 , 层 可 以 是 一 个 国家 的 各 个 不 同 的 州 或 省 ,PSU 可 以 是 一 个 州 或 
省 内 的 地 区 ,而 USU 可 以 是 在 相同 邻 域 中 形成 的 小 住户 群 。 

通常 有 所 有 层 都 要 进行 调查 ,例如 ,所 有 的 州都 将 肯定 进入 样本 中 。 但 是 ,并 不 
是 全 部 的 PSU 及 其 划分 被 调查 到 ,而 且 它 们 以 不 同比 率 被 抽样 。 在 两 阶段 抽样 
(two-stage sampling) 中 ,被 调查 的 PSU 是 以 随机 方式 抽取 的 ,而 USU 则 是 从 选取 
上 的 PSU 中 以 随机 方式 抽取 。 在 多 阶段 抽样 (multistage sampling) 中 , 中间 抽样 单 
元 譬如 SSU 也 会 出 现 。 

这 些 抽样 方法 的 一 个 结果 是 ,不 同 的 家 庭 将 以 不 同 概率 被 抽取 为 样本 。 于 是 ， 
此 样本 是 总 体 非 代表 性 (unrepresentative) 的 。 许 多 调查 都 提供 一 些 抽 样 权 数 
(sampling weights) ,日 的 是 与 被 抽取 的 概率 成 反比 例 , 在 此 情况 下 ,这 些 权 数 能 够 
用 于 获得 总 体 特 征 的 无 偏 估 计量 ，。 

例如 , 由 于 在 相同 的 小 邻 域内 对 许多 家 庭 进 行 抽样 ,所 以 调查 数据 可 能 是 集聚 
的 。 在 同一 个 整 群 中 的 观测 值 可 能 不 是 独立 的 或 者 相关 的 ,因为 它们 依赖 于 能 够 
影响 到 一 个 层 内 的 所 有 观测 值 的 某 种 可 观测 的 或 不 可 观测 的 因素 。 例 如 ,郊区 或 
者 由 高 收入 家 庭 占 据 着 ,或 者 由 其 偏好 的 某 一 方面 相对 同 质 的 那些 家 庭 所 占据 。 
源 于 这 些 家 庭 的 数据 至 少将 无 条 件 地 趋 于 相关 ,尽管 这 样 的 相关 性 在 以 家 庭 的 可 
观测 特性 为 条 件 下 是 可 忽视 的 。 忽 略 样本 观测 值 之 间 相 关 性 的 统计 推断 产生 的 方 
差 估计 值 , 比 来 白 正 确 公式 的 那些 情况 所 得 到 的 方差 估计 值 要 小 。 

24. 5 节 将 以 比较 深入 的 方式 涵盖 这 些 间 题 。 两 阶段 与 多 阶段 样本 潜在 地 使 
得 标准 误差 的 计算 更 为 复兴。 

总 之 ,(1) 在 一 些 层 内 以 各 种 不 同 抽样 比率 所 得 到 的 分 层 ,意味 着 样本 是 总 体 
的 非 代表 ;(2) 与 被 抽取 的 概率 成 反比 例 的 抽样 权 数 ,可 以 用 于 获得 总 体 特 征 的 无 
偏 估 计 ;(3) 集聚 会 导致 观测 值 的 相关 ,从 而 低估 了 估计 量 的 真实 标准 误差 ,除非 
做 出 适当 的 调整 。 


3. 2.4 有 偏 样 本 
如 果 随 机 样本 是 抽取 获得 的 ,那么 数据 的 概率 分 布 与 总 体 分 布 是 相同 的 。 对 
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随机 抽样 的 某 种 偏离 ,引起 两 者 之 间 的 差异 (divergence) ,这 称 为 有 但 抽样 (biased 
sampling) 。 数 据 分 布 会 以 依赖 于 对 随机 抽样 偏离 的 性 质 而 不 同 于 总 体 分 布 。 由 
于 从 子 总 体 中 获取 数据 是 更 方便 的 ,或 者 是 出 于 成 本 考虑 的 ,所 以 会 发 生 偶 离 随机 
抽样 的 情况 ,尽管 所 获取 的 数据 并 不 是 整个 电 体 的 代表 。 现 在 ,我 们 以 没有 背离 随 
机 性 的 情况 开始 ,来 考虑 这 类 偶 离 的 几 个 案例 。 

外 生 抽 样 

如 果 分 析 者 只 基于 外 生变 量 x 而 不 是 啊 应 变量 的 集合 ,将 可 利用 的 样本 分 割 
成 一 些 子 样本 ,就 产生 了 出 自 调 整数 据 的 外 生 抽 样 (exogenous sampling) 。 例 如 ,在 
对 德国 医院 的 一 项 研究 中 , 盖 尔 等 人 (Geil et al. ,1997) 把 数据 分 割 成 两 种 类 型 ,上 患 
慢性 病 的 人 与 没有 患 慢 性 病 的 人 。 由 收入 范畴 来 分 类 也 是 普遍 的 。 也 许 更 准确 的 
是 ,把 这 样 的 抽样 形式 描述 成 外 生子 抽样 ,因为 它 是 通过 参照 已 收集 到 的 样本 来 执 
行 的。 通过 性 别 、 健 康 或 社会 经 济 地 位 进行 分 割 是 相当 普 这 的 。 在 外 生 抽 样 的 假 
设 下 ,外 生变 量 的 概率 分 布 与 y 是 独立 的 ,而 且 不 包括 关注 的 总 体 参 数 89。 因此 ， 
人 们 可 以 忽略 外 生变 量 的 边缘 分 布 ,并 且 直 接 建立 在 条 件 分 布 f(y|x, 9) 的 基础 上 
进行 估计 。 当 然 , 该 假设 可 能 是 错误 的 ,同时 观测 到 的 结 采 变量 分 布 会 依赖 于 所 选 
择 的 分 割 变量 ,这 或 许 与 结果 是 相关 的 ,因而 导致 对 外 生 抽 样 的 背离 。 

基于 啊 应 抽样 

如 果 个 体 被 样本 抽取 的 概率 依赖 于 由 那个 个 体 所 做 出 的 啊 应 或 选择 ,就 产生 
了 基于 响应 的 抽样 (response-based sampling)。 在 这 种 情况 下 ,样本 选择 可 依据 由 
正在 研究 的 内 生变 量 所 定义 的 规则 继续 进行 。 

有 三 个 事例 如 下 : (1) 在 研究 负 收 入 税 或 援助 有 抚养 孩子 负担 的 家 庭 计划 
(Aid to Families with Dependent Children ，AFDC) 对 劳动 力 供给 的 影响 中 , 仅 对 那 
些 低 于 贫困 线 的 人 员 进 行 调查 ; (2) 在 研究 对 公共 运输 工具 样式 选择 的 决定 因素 
中 , 仅 对 使 用 运输 工具 的 使 用 者 进行 调查 ; (3) 在 研究 对 去 娱乐 场所 游玩 人 数 的 决 
定 因素 中 ,调查 对 象 宇 少 包括 那些 去 游玩 的 人 。 

较 低 的 调查 成 本 为 宁愿 使 用 基于 选择 的 样本 而 不 是 简单 随机 样本 提供 了 重要 
动机 。 为 了 生成 足够 多 的 相对 很 少 发 生 的 结果 或 选择 观测 值 (信息 ) ,需要 一 个 非 
常 大 的 随机 样本 ,因此 ,比较 便宜 的 方法 是 去 收集 源 于 那些 实际 上 做 出 选择 的 人 的 
样本 。 

这 样 做 的 实践 重要 性 是 ,总 体 参 数 8 的 一 致 估计 量 不 再 仅仅 利用 条 件 总 体 密 
度 f(y|x) 来 完成 。 抽 样 方案 的 影响 也 必须 考虑 进去 。24.4 节 将 进一步 讨论 这 个 
专题 。 

长 度 偏 倚 抽 样 

长 度 偏 倚 抽 样 (length-biased sampling) 前 述 ,为 了 对 不 同 总 体 做 出 推 央 , 俩 倚 
是 如 何 通过 对 一 个 总 体 进行 抽样 而 引起 的 。 严 格 地 讲 , 它 不 足以 成 为 对 作为 抽取 
“错误 ”总 体 的 一 个 抽样 随机 性 背离 的 事例 。 

对 过 湾 进 行经 济 计量 研究 ,就 是 在 其 过 渡 到 另 一 个 目的 状况 s 之 前 ,对 个 体 : 
处 于 最 初 状况 7 所 花费 的 时 间 进 行 建 模 。 一 个 事例 是 ,7 对 应 于 失业 ,而 对 应 于 
就 业 。 这 类 研究 所 使 用 的 数据 可 能 有 几 个 来 源 。 一 个 来 源 是 对 在 特殊 日 期 处 于 失 


微观 经 济 计量 学 


业 的 个 体 进行 抽样 ; 另 一 个 来 源 是 对 作为 劳动 力 的 那些 个 体 进行 抽样 ,而 不 管 其 当 
前 状态 如 何 ; 第 三 个 来 源 是 对 特定 时 期 内 成 为 失业 人 员 或 者 离开 工作 岗位 的 个 体 
进行 抽样 。 每 一 种 抽样 方案 类 型 都 是 基于 不 同 的 有 关 总 体 概念 。 在 第 一 种 情况 
下 ,有 关 总 体 是 失业 个 体 的 存量 ;第 二 种 情况 下 总 体 是 劳动 力 ;而 第 三 种 情况 下 总 
体 为 满足 过 渡 到 就 业 状 况 的 个 体 。 这 个 专题 将 在 18. 6 节 进 一 步 加 以 讨论 。 

假定 调查 目的 是 计算 失业 的 平均 持续 期 限 测量 。 这 表示 随机 选取 的 个 体 将 处 
于 失业 时 的 时 间 平 均 长 度 , 如 果 他 或 她 成 为 失业 者 的 话 。 显 然 , 对 这 个 看 似 简单 的 
问题 的 解答 依赖 于 样本 数据 是 如 何 获得 的 而 变化 。 完 成 的 持续 期 限 的 流量 分 布 通 
常 非常 不 同 于 存量 分 布 。 当 我 们 对 存量 进行 抽样 ,对 于 具有 较 长 持续 期 限 的 个 体 
而 言 ,处 于 样本 中 的 概率 是 比较 高 的 。 当 我 们 脱离 该 状态 的 流量 进行 抽样 ,概率 将 
不 依赖 于 处 于 该 状态 所 花费 的 时 间 。 这 是 著名 的 基于 长 度 抽样 的 事例 ,通过 对 存量 
进行 抽样 而 得 到 的 估计 值 ,是 随机 成 为 新 失业 者 的 失业 时 段 平均 长 度 的 有 偏 估 计 。 

下 面 这 个 简单 的 图 示 可 以 解释 这 一 点 : 
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进入 流 存量 退出 流 
这 里 ,我 们 用 符号 “@” 表 示 慢 运动 者 ,而 件 号 “O” 表 示 快 运动 者 。 假 定 两 种 类 
型 在 流量 中 同等 地 得 到 表述 ,而 慢 运 动 者 在 存量 中 比 快运 动 者 停留 的 时 间 长 。 于 
是 ,存量 总 体 中 的 慢 运 动 者 的 比率 较 大 。 最 后 ,推导 出 总 体 中 的 快运 动 者 比例 较 
大 。 这 种 推理 可 推广 到 其 他 的 异 质 性 类 型 。 
这 个 事例 的 要 点 并 不 是 表明 ,流量 抽样 就 比 存 量 抽样 要 好 。 相 反 , 这 要 依赖 于 
问题 是 什么 ,存量 抽样 并 不 会 产生 有 关 和 总体 的 随机 样本 。 


3.2.5 内 样本 人 选择 3| 起 的 优 何 


考察 下 述 问 题 。 研 究 者 对 培训 的 效果 测量 感 兴趣 ,用 z 表示 该 效果 测量 (处 
理 ) ,培训 后 的 工资 由 y( 结 果 ) 表 示 ,给 定 工人 的 特征 ,用 x 表示。 如 果 工 人 接受 培 
训 , 那 么 变量 z 取 值 为 1 ,否则 取 值 为 0。 对 于 所 有 工人 来 说 ,观测 值 (x,D) 是 可 以 
利用 的 ,但 是 ,只 有 那些 已 接受 培训 (D=1) 的 人 才 可 利用 >y。 人 们 喜欢 做 出 有 关 培 
训 对 随机 选取 的 具有 已 知 特征 的 当前 未 培训 CD==0) 的 工人 的 培训 后 工资 的 平均 
影响 的 推断 。 样 本 选择 (sample selection) 问题 涉及 做 出 这 类 推断 的 难点 。 

曼 斯 基 (Manski，1995) 认 为 这 是 一 个 识别 问题 ,将 选择 问题 正式 定义 如 下 : 

这 是 对 源 于 随机 样本 数据 的 条 件 概率 分 布 进行 识别 的 问题 ,条 件 变 量 的 

实现 总 是 可 观测 到 的 ,但 是 结果 的 实现 却 是 删 失 的 。 

假定 y 表示 要 预测 的 结果 ,而 条 件 变 量 用 x 表示 。 变 量 z 表示 删 失 标示 变量 ， 
如 果 结 果 > 是 可 观测 的 ,那么 z 取 值 为 1, 否 则 取 值 为 0。 变 量 (D, zz) 总 是 可 观测 
的 ,但 y 只 有 DD 二 1 时 才 是 可 观测 的 。 曼 斯 基 把 这 称 为 删 失 抽样 过 程 (censored 
sampling process) 。 删 失 抽 样 过 程 不 可 以 识别 PrLy|xj, 正 如 从 下 式 看 到 的 ， 


Prfy|zx|=Prly|zx, D=1 |PrL D=1|zjTPr| yl|zx, D=0 |Pr[ D=0|x| (3.2) 
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抽样 过 程 能 够 识别 右边 四 项 中 的 三 项 , 却 没 有 提供 关于 Pr[y|x，D= 二 0 项 的 
信息 。 因 为 : 


Ely|zx|=ELy|zx, D=1|* PriD=1|zx| 二 Ely|x, D=0|]. Pr{D=0|zx| 


无 论 何 时 删 失 概率 PrLD 二 0|zxj 为 正 ,可 利用 的 经 验证 据 对 ELy|zj] 都 没有 施加 约 
束 。 因 此 , 删 失 抽样 过 程 只 有 对 于 PrLy|z, DD 二 0 的 某 个 未 知 值 才 能 识别 PrLy|zxzj。 
为 了 认识 到 关于 ELy|zj 的 一 切 , 必 须 对 PrLy|zj 施 加 一 些 约束 。 

求解 这 种 问题 的 可 供 选 择 的 方法 ,将 在 16. 5 节 中 加 以 讨论 。 


3.2.6 调查 数 据 质 量 


样本 数据 的 质量 不 仅 依 赖 于 样本 设计 和 调查 工具 ,而且 依赖 于 调查 啊 应 。 这 
种 观测 值 尤 其 用 来 表示 观测 数据 。 我 们 考察 样本 数据 的 质量 受到 危机 的 几 种 方 
式 。 一 些 问题 (比如 损耗 ) 连 同 其 他 的 数据 类 型 也 能 够 产生 。 这 个 专题 和 有 偏 抽样 
重 奉 。 

调查 无 响应 问题 

正式 来 讲 , 调 查 是 日 愿 的 ,而 且 参 与 的 动机 依据 住户 特征 或 要 回答 的 问题 类 型 
不 同 而 系统 地 变化 。 个 体 可 以 拒绝 回答 某 些 问题 。 如 果 在 拒绝 回答 的 问题 和 个 体 
特征 之 间 存 在 着 系统 关系 ,那么 在 考虑 无 啊 应 (nonresponse) 之 后 ,就 产生 了 调查 代 
表 性 的 问题 。 如 果 可 以 忽略 无 啊 应 ,而 且 仅 仅 利 用 来 自 啊 应 的 数据 完成 分 析 ,那么 
对 关注 的 参数 进行 估计 会 受到 怎样 的 影响 呢 ? 

调查 无 啊 应 是 前 面 一 节 中 提 及 的 选择 问题 的 特殊 情况 。 两 者 都 包括 有 偏 样 
本 。 为 前 述 有 偏 样本 是 如 何 导 致 曲解 推断 的 ,考察 下 述 模 型 


yy x [3 ol O12 
> he 卫 
其 中 , 表示 关注 的 连续 随机 变量 (比如 开支 ) , 它 依赖 于 x, 而 y; 表示 潜 变 量 , 它 
测算 了 调查 中 的 “参与 倾向 ”, 依 赖 于 z。 如 果 多 0, 那 么 个 体 参 与 ;否则 ,个 体 不 
人 参与。 假定 变量 x 与 z 是 外 生 的 。 人 公式 允许 和 i 与 多 是 相关 的 。 
假定 我 们 通过 最 小 二 乘法 ,从 参与 者 提供 的 数据 中 估计 出 8。 在 存在 不 参与 
者 的 情况 下 ,这 个 估计 量 是 无 偏 的 吗 ? 回答 是 ,如 果 不 参 与 者 是 随机 的 且 与 关注 的 


变量 y! 是 独立 的 ,那么 它 就 是 无 偏 的 ;否则 , 它 将 是 有 侦 的 。 
其 推理 如 下 : 


乱 9 更 一 人 (3. 3) 











B= (XX) 1X’y, 
E[ 8—8]=E[[LX X]!:X Ely, —XB|X,Z,y>0]] 


其 中 ,第 一 行 给 出 8 估计 值 的 最 小 二 乘法 公式 ,而 第 二 行 说 明 它 是 有 人 的 。 如 采 yy 
与 y 是 独立 的 并 以 六 与 Z 为 条 件 , 而 且 o1z 一 0, 那 么 


ELy.—X6B|X,2Z,y:>0]=ELy, XB8|X,Z|=0 
是 无 偶 的 。 
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缺失 数据 与 误 测 数据 

现 查 回 客 洗 要 处 理 三 江 的 调查 表 , 他们 不 一 定 会 回答 每 个 问题 ,他 们 即使 回 
答 , 也 可 能 会 故意 或 偶然 地 造假 。 假 定 调查 样本 企图 获得 来 自 NN 个 个 体 样 本 的 响 
应 向 量 , 记 为 二 (xa,…… ,Zig ) ,i 二 1,…, N。 现 在 假定 个 体 没有 提供 x; 的 一 个 或 
多 个 元 素 的 信息 ,那么 整个 向 量 会 被 丢弃。 起 因 于 缺失 数据 (missing data) 的 第 一 
个 问题 是 ,样本 量 减 少 。 第 二 更 严重 的 潜在 问题 是 ,缺失 数据 潜在 地 导致 类 似 于 选 
择偶 傈 的 侦 何 。 如 采 数 据 是 以 系统 方式 缺失 ,那么 接 下 来 要 分 析 的 样本 就 不 是 总 
体 的 代表 。 选 择 仿 倚 的 形式 包括 系统 的 无 啊 应 模式 。 例 如 ,高 收入 者 可 能 系统 地 
不 回答 有 关 收 入 的 问题 。 相 反 , 如果 数据 以 完全 随机 形式 缺失 ,那么 放弃 的 不 完全 
观测 值 将 减少 准确 性 ,但 不 会 产生 偏 倚 。 第 27 章 将 更 深入 讨论 缺失 数据 问题 及 其 
解决 方法 。 

测量 误差 (measurement errors) 在 调查 啊 应 中 是 一 个 普遍 性 问题 。 这 些 问 题 产 
生 于 一 系列 原因 ,包括 由 于 粗心 大 意 引 起 的 不 正确 响应 、 故 意 错 报 、 对 过 去 事件 不 
完善 的 回忆 、 对 问题 不 正确 的 解释 以 及 数据 过 程 误差 。 测 量 误差 更 多 是 由 于 测量 
变量 最 好 也 不 过 是 相关 理论 上 概念 的 不 完美 代表 (proxy)。 这 种 测量 误差 的 后 果 
是 一 个 主要 专题 ,对 此 将 在 第 26 章 加 以 讨论 。 

样本 损耗 

在 面板 数据 情形 下 ,调查 涉及 对 一 系列 个 体 的 重复 观测 值 。 在 此 情况 下 ,我们 
能 够 其 有 : 

9 所 有 时 期 的 全 部 响应 (全 部 参与 ) ; 

9 在 第 一 个 时 期 及 后 来 所 有 时 期 都 无 啊 应 (无 参与 ); 

9 在 最 初时 期 响应 ,但 在 后 来 时 期 没有 响应 的 意义 上 的 部 分 啊 应 (不 完全 参 
与 ) ,这 种 情况 称 为 样本 损耗 (sample attrition) 。 

样本 损耗 会 产生 缺失 数据 ,并 且 ” 缺失 ”的 任何 非 随 机 模式 的 存在 ,将 会 导致 前 
面 提 太 的 样本 选择 类 型 问题 。 这 能 够 解释 成 为 样本 选择 问题 的 特殊 情况 。 样 本 损 
耗 将 在 21. 8. 5 节 和 23. 5. 2 节 中 简要 地 加 以 讨论 。 


3.2.7 观测 数据 的 类 型 


横 截面 数据 (cross-section data) 是 通过 在 某 些 1, 对 样本 S 进行 观测 w 而 获得 
的 。 尽 管 通 党 在 同一 时 点 上 抽样 所 有 住户 是 行 不 通 的 ,但 横 截 面 数 据 还 是 作为 对 
被 用 于 做 出 有 关 总 体 推断 的 那个 总 体 中 子 集 的 每 一 个 元 素 特 征 的 简略 缩影 。 如 果 
总 体 是 平稳 的 ,那么 利用 S 做 出 有 关 9, 的 推 烦 ,对 于 二 关 t 还 是 有 效 的 。 如 果 在 过 
去 特性 和 现在 特性 之 间 存 在 显著 相依 性 ,就 需要 纵向 数据 来 确定 关注 的 关系 。 例 
如 ,过 去 的 决策 会 影响 到 当前 结果 ;惯性 或 习惯 持续 性 可 以 解释 当前 的 购买 ,但 是 ， 
如 果 没 有 购买 历史 可 以 利用 ,就 不 能 对 这 类 相依 性 进行 建 模 。 

重复 模 截 面 数 据 (repeated cross-section data) 是 通过 取 自 FC(w,|10,),t 二 1,…, 荆 
的 一 系列 独立 样本 而 得 到 的 。 因 为 样本 设计 并 没有 企图 把 相同 单元 保留 在 样本 
中 ,所 以 ,有 关 特 性 方面 的 动态 相依 性 信息 就 丢失 了 。 如 有 果 总 体 是 平稳 的 ,那么 重 
复 横 截面 数据 可 通过 类 似 于 从 恒 贡 总体 中 进行 放 回 抽样 的 那 种 抽样 过 程 来 狭 得 。 
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如 果 总 体 是 非 平稳 的 ,那么 重复 机 截面 与 依赖 于 该 总 体 如何 随 时 间 而 变化 的 方式 
有 联系 。 在 这 种 情况 下 , 自 标 就 是 对 有 关 基 本 常 值 ( 超 ) 参 数 进行 推 凯 。 对 重复 横 
截面 的 分 析 将 在 22. 7 节 中 加 以 讨论 ，。 

面板 或 纵向 数据 (Cpanel or longitudinal data) 是 通过 最 初 选择 的 样本 S, 然 后 收 
集 一 系列 时 期 的 观测 值 而 获得 到 的 ,t= 二 1,…, 丁 。 这 可 以 通过 访问 对 象 并 在 同一 时 
同 收集 现在 和 过 去 的 数据 ,或 者 把 对 象 引 进 调 查 中 并 跟踪 它们 来 获得 。 这 就 产生 
一 些 列 数据 向 量 {wi,…,wr} ,它们 可 用 于 对 总 体 的 特性 或 个 体 的 特殊 样本 的 特性 
进行 推 新 。 每 一 种 情况 下 的 适当 方法 论 是 不 一 样 的 。 如 果 数 据 是 从 非 平 稳 总 体 中 
抽取 的 ,那么 合适 的 目标 应 该 是 对 子 总 体 的 ( 超 ) 参 数 进行 推断 。 

这 些 数据 类 型 的 一 些 局 限 性 是 明显 的 。 横 截面 样本 与 重复 横 截 面 通常 没有 提 
供 对 结果 中 跨 期 相依 性 进行 建 模 的 适当 数据 。 这 类 数据 仅 适 合 于 对 静态 关系 进行 
建 模 。 相 反 ,纵向 数据 既 适 合 于 对 静态 关系 ,又 适合 于 对 动态 关系 进行 建 模 ,特别 
是 对 纵 回 数据 跨度 为 足够 长 的 时 期 建 模 。 

纵 问 数据 并 不 是 没有 问题 的 。 第 一 个 问题 是 面板 的 代表 性 。 如 果 总 体 是 非 平 
稳 的 ,那么 利用 纵向 数据 对 有 关 总 体 特性 进行 推断 是 相当 困难 的 。 为 了 分 析 行 为 
动态 学 ,只 要 可 能 在 面板 中 保留 最 初 住 户 , 就 是 引 人 注 目的 选项 。 在 实际 应 用 中 ， 
纵 四 数据 集合 遭受 “样本 损耗 "问题 ,或许 是 由 于 “样本 疲劳 ”(sample fatigue)。 这 
就 意味 着 ,调查 回答 者 并 没有 连续 提供 对 调查 表 的 响应 。 这 导致 两 个 问题 ,(1) 面 
板 成 为 非 平 稳 的 ;(2) 存在 着 下 述 和 危险, 即 被 保留 住户 不 是 一 般 性 ,并 且 样 本 成 为 
总 体 的 非 代表 。 当 可 利用 的 数据 不 是 从 总 体 中 随机 抽取 的 时 候 , 建 立 在 各 种 不 同 
数据 失 型 基础 上 的 结果 会 不 同 程度 地 对 偏 倚 有 敏感 性 。 由 于 把 个 体 保 留 在 不 同时 
期 的 面板 中 是 相当 困难 的 ,或 者 由 于 基 种 其 他 原因 , 比如 位 置 的 改变 ,个 体 被 “ 丢 
失 “( 删 失 ) ,这 就 产生 了 样本 疲劳 ”。 有 关 这 些 问题 ,本 书 稍 后 将 会 研究 。 不 过 , 纵 
癌 数 据 的 分 析 可 以 提供 抽样 单元 特征 的 某 些 方面 信息 ,尽管 外 推 总 体 特性 并 不 是 
和 傈 单 钨 行 的 。 


3.3 源 日 社会 实验 的 数据 


观测 数据 和 试验 数据 极为 不 同 ,因为 实验 环境 原则 上 接近 于 可 监督 与 可 控 的 。 
这 使 得 改变 关注 的 原因 变量 成 为 可 能 ,市 把 其 他 协 变量 同 定 在 可 控 的 设置 背景 下 。 
相反 ,观测 数据 是 在 非 可 控 环 境 下 生成 的 ,这 留 下 一 种 公开 的 可 能 性 -一 -混淆 因素 
的 存在 将 会 使 得 对 关注 的 因果 关系 进行 识别 更 为 困难 。 例 如 , 当 人 们 试图 利用 观 
测 数 据 人 研究 工资 一 受 教 育 关 系 时 ,人 们 必须 接受 个 体 的 受 教育 年 数 是 个 体 者 白 身 
决策 过 程 的 纺 洒 ,而 不 能 把 有 党 教育 水 平 看 成 由 假设 实验 者 来 设置 的 。 

在 社会 科学 中 ,实验 数据 与 类 似 的 数据 或 者 来 自 社会 实验 (social experi- 
ments) ,本 书 下 面 将 深入 而 详细 地 定义 和 描述 它 ; 或 者 来 日 "实验 室 ” 实 验 (“1abora- 
tory”experiments), 即 一 个 日 愿 参与 者 小 组 处 于 同 现实 生活 相对 应 的 实验 中 , 模 
拟 经 济 行 为 人 的 行为 。 

本 市 提供 对 社会 实验 方法 论 的 简要 解释 、 源 于 社会 实验 数据 的 性 质 、 由 此 产生 
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的 问题 ,以 及 对 经 济 计量 方法 论 的 争论 。 

实验 方法 论 的 核心 特性 涉及 随机 选取 的 实验 小 组 受 限 于 “处 理 ”(treatment) 的 
后 未 与 那些 对 照 (controD) (比较 ) 组 之 间 的 比较 。 在 一 个 良好 的 实验 中 , 对 对 照 组 
与 实验 ( 处理” 组 的 匹配 关系 要 进行 相当 仔细 的 审查 ,从 而 避免 结果 中 的 潜在 偏 
倚 。 这 样 的 条 件 在 观测 环境 中 不 可 能 实现 ,因此 会 导致 对 关注 的 原因 参数 识别 的 
可 能 缺失 。 然 而 有 时 ,实验 条 件 可 以 近似 地 由 观测 数据 来 复制 。 例 如 ,考察 邻近 的 
地 区 或 州 ,其 中 一 个 地 区 执行 与 另外 一 个 地 区 不 同 的 最 低 工 资 政策 , 创 造 了 自然 实 
验 (natural experiment) 的 条 件 , 来 自 “ 处 理 州 ”的 观测 值 能 够 与 那些 来 自 “ 控 制 州 ” 
的 观测 值 进行 比较 。 经 济 计量 学 中 的 自然 实验 的 数据 结构 也 是 引 人 关 注 的 问题 。 

性 会 实验 涉及 包含 一 系列 受 试 者 的 经 济 环境 中 的 外 生变 化 , 受 试 者 被 分 成 接 
受 实 验 处 理 的 子 集 与 另外 一 个 作为 对 照 组 的 子 集 。 与 观测 研究 一 一 外 生 因 素 与 内 
生 因 素 的 变动 经 常 混 消 在 一 起 -一 相 比 ,设计 良好 的 社会 实验 目的 是 隔离 处 理 恋 
量 的 作用 。 在 一 些 实验 设计 中 ,可 能 不 存在 明显 的 对 照 组 (control group) , 却 可 以 
利用 处 理 的 变化 水 平 , 在 此 情况 下 ,原则 上 估计 实验 结果 的 整个 响应 面 (response 
surface) 是 可 能 的 。 

社会 实验 的 主要 目的 是 ,估计 实际 或 潜在 的 社会 项 目的 效应 。2. 7 节 的 潜在 
绪 朱 模型 提供 了 对 社会 实验 效应 进行 建 模 的 相关 影响 。 几 种 可 供 选 择 的 测量 效应 
的 方法 已 经 提出 来 ,这 些 将 在 项 目 评估 章 ( 第 25 章 ) 中 加 以 讨论 。 

但 特 莱 斯 (Burtless，1995) 已 概述 过 社会 实验 的 情况 ,又 注意 到 一 些 潜在 的 局 
限 禾 。 在 同类 文章 中 , 赫 克 曼 和 史密斯 (Heckman and Smith，1995) 关 注 可 以 执行 
的 实际 社会 实验 的 局 限 性 。 本 节 后 面 的 讨论 明显 借用 这 些 论文 的 观点 。 


3.3.1 社会 洋 验 的 重要 特性 


社会 实验 是 由 下 述 政 策 问题 引发 的 , 即 受 试 者 对 从 未 执行 的 政策 类 型 是 如 何 
反应 的 ,因此 ,对 此 没有 观测 相应 数据 社会 实验 的 思想 是 ,去 征 募 一 个 自愿 参与 者 
小 组 ,将 其 中 一 些 参 与 者 随机 地 指派 到 处 理 组 ,而 将 其 余 的 参与 者 指派 到 对 照 组 。 
在 那些 受 限 于 政策 变化 的 处 理 组 的 响应 与 那些 没有 政策 变化 的 对 照 组 的 情况 之 间 
的 差异 ,就 是 政策 的 估计 效应 。 标 准 实 验 设 计 被 系统 地 描述 成 图 3. 1 。 


指派 到 
处 理 组 








指派 到 
对 照 组 






邀请 符合 条 件 
的 党 试 者 参与 





从 研究 中 去 掉 


3.1 市 有 随机 指派 的 社会 实验 
术语 “实验 ” 意 指 接受 处 理 的 组 , “对 照 ”*(“ 控 制 ”) 意 指 未 接受 处 理 的 组 ,而 “ 随 
机 指 沽 ”Crandom assignment) 意 指 指派 个 体 到 上 述 两 个 组 的 过 程 。 
统计 学 中 的 “随机 化 试验 ”是 由 R. A. 费 希 尔 (R. A.Fisher，1928) 同 其 合作 者 
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一 起 引进 的 。 典 型 的 农业 实验 是 由 下 述 实验 构成 的 , 即 一 种 新 处 理 , 比如 肥料 被 应 
用 到 一 块 随机 选取 的 植物 生长 地 上 ,那么 把 其 响应 与 那些 对 照 组 的 植物 进行 比较 ， 
这 对 于 实验 中 所 有 相关 的 方面 都 类 似 , 只 是 没有 给 出 实验 处 理 。 如 果实 验 组 与 对 
照 组 之 间 的 所 有 其 他 差异 的 效应 都 被 剔除 掉 , 那 么 在 两 个 响应 集合 之 间 的 估计 差 
异 被 认为 是 由 处 理 所 造 成 的 。 在 最 简单 的 情况 下 ,人 们 能 够 集中 精力 比较 处 理 组 
的 均值 结果 与 未 处 理 组 的 均值 结果 。 

尽管 在 农业 和 生物 医学 科学 中 ,随机 化 试验 方法 论 具 有 悠久 的 历史 ,但 在 经 济 
学 和 社会 科学 中 , 它 却 是 毁 新 的 。 研 究 那 些 没有 观测 数据 的 政策 变化 的 响应 是 引 
人 注目 的 ,或 许 因 为 关注 的 政策 变化 从 未 被 执行 过 。 随 机 化 实验 还 允许 政策 变化 
和 参数 的 变动 比 其 在 观测 数据 中 存在 的 变动 要 大 许多 ,因而 ,对 政策 变化 的 响应 进 
行 识别 与 研究 就 比较 容易 。 在 许多 情况 下 ,社会 实验 可 以 彻底 检验 从 未 执行 的 政 
策 , 因 此 ,观测 数据 在 其 潜在 影响 中 完全 可 以 保持 沉默 。 

社会 实验 除了 在 美国 以 外 还 是 相当 少 的 ,部 分 原因 在 于 它们 实施 起 来 费用 昂 
贵 。 在 美国 ,一 系列 的 这 种 实验 始 于 20 世纪 70 年 代 早 期 。 表 3. 1 概述 某 些 相 对 
著名 事例 的 特性 ;有 关 更 广泛 的 内 容 , 参 见 伯 特攻 斯 (Burtless，1995 ) 。 


表 3.1 一 些 选 出 的 社会 实验 的 特点 


实 验 实验 处 理 目标 总 体 
兰 德 健康 保险 实验 (RHIE)， 健康 保险 计划 和 不 同 的 最 大 低 水 平 及 中 等 水 平 收 入 人 
1974 一 1982 年 支出 费用 员 与 家 庭 
负 税 收 (NIT)， 带 有 可 选择 收入 保证 和 税率 未 成 年 户主 的 低 水 平 及 中 
1968 一 1978 年 的 NIT 计划 等 水 平 收 信人 人员 与 家 庭 
职业 培训 关系 法 (JTPA)， 在 JIPA 融资 下 ,寻找 职业 失学 青年 人 和 贫困 成 年 人 
1986 一 1994 年 资助 .工作 培训 .课堂 培训 


通常 ,实验 可 能 产生 横 截 面 数据 ,或 是 纵向 数据 ,尽管 出 于 成 本 考虑 ,时 常会 将 
时 间 维 度 限制 在 观测 数据 中 的 某 一 个 水 平 以 下 。 当 一 个 试验 持续 几 年 ,并 且 是 多 
阶段 的 以 及 /或 拥有 一 些 地 理 场 所 ,如 同 RHIE 情况 ,建立 在 不 完全 数据 基础 上 的 
期 间 分 析 并 不 罕见 [ 纽 豪 斯 等 人 (Newhouse et al. ，1993) ] 。 


3.3.2 社会 茂 验 的 优 反 


们 特 莱 斯 (Burtless，1995) 非常 明晰 地 综述 了 社会 实验 的 优点 。 其 重要 的 优 
点 源 于 随机 化 试验 ,这 可 以 消除 项 目 参 与 中 观测 到 的 特征 和 未 观测 到 的 特征 之 间 
的 相关 性 。 因 此 ,如 采 没 有 混淆 偶 倚 ,即使 人 们 不 能 对 混 消 变量 加 以 控制 ,处 理 对 
已 处 理 组 和 对 照 组 之 间 的 差异 的 贡献 束 能 得 到 估计。 处 理 变 量 和 起 混 消 作用 的 恋 
量 之 间 存 在 的 相关 性 经 常 困扰 着 观测 研究 ,同时 使 得 因果 推断 复杂 起 来 。 与 之 相 
比 ,在 理想 环境 下 进行 的 实验 研究 ,可 以 产生 已 处 理 组 和 未 处 理 组 的 结果 平均 差异 
的 一 致 估计 值 ,而 在 计算 上 又 没有 更 多 的 复杂 人 性。 

然而 ,如果 结 果 依 赖 于 处 理 和 其 他 可 观测 的 因素 ,那么 对 可 观测 因素 加 以 控 
制 ,通常 会 改进 估计 效果 的 准确 性 ，。 

显然 ,可 以 利用 观测 的 数据 ,但 实验 数据 的 产生 和 使 用 具有 很 大 的 感染 力 , 因 
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为 它 提供 了 对 政策 变量 外 生化 (exogenizing) 的 可 能 性 ,同时 ,处 理 的 随机 化 能 潜在 
地 导致 统计 分 析 在 很 大 程度 上 的 简化 。 建 立 在 观测 数据 基础 上 的 绪论 经 沿 具 有 一 
般 性 ,因为 它们 是 建立 在 来 自 总 体 的 非 随 机 样本 基础 上 一 一 选择 偶 傈 问题 。 一 个 
例子 就 是 前 面 提 及 的 RHIE 研究 , 它 主要 专注 的 内 容 是 对 健康 服务 需求 的 价格 啊 
应 。 健 康 保 险 的 可 用 性 会 影响 到 健康 服务 的 使 用 者 价格 以 及 对 它 的 使 用 。 一 个 重 
要 的 政策 问题 是 ,对 健康 服务 过 度 使 用 的 程度 是 由 已 补助 健康 保险 引起 的 。 当 然 ， 
人 们 能 使 用 观测 数据 对 健康 服务 和 保险 水 平 之 间 的 关系 进行 建 模 。 然 而 ,这 类 分 
析 受 到 下 述 批评 , 即 健康 保险 水 平 不 应 该 被 处 理 成 为 外 生 的 。 理 论 上 的 分 析 表 明 ， 
对 健康 保险 的 需求 与 健康 保险 可 以 联合 确定 ,因此 ,因果 关系 不 是 单方 面 的 。 这 一 
事实 会 潜在 地 使 得 对 健康 保险 识别 很 困难 。 把 健康 保险 处 理 成 外 生 偶 何 的 价格 响 
应 的 估计 值 。 然 而 ,在 实验 背景 下 ,参与 的 住户 /家 庭 被 指派 一 个 保险 政策 ,使 它 作 
为 外 生变 量 。 于 是 ,保险 的 作用 是 可 识别 的 。 一 有 旦 关注 的 重要 变量 被 外 生化 , 因 本 
关系 的 方向 就 变 得 清楚 ,而且 处 理 效果 能 得 到 清楚 的 研究 。 进 一 步 地 ,如 条 实验 没 
有 我 们 下 面 将 提 及 的 一 些 问题 ,就 会 大 大 简化 有 关 的 统计 分 析 , 在 调查 数据 中 这 种 
分 析 稼 帝 是 必需 的 。 


3.3.3 社会 实 儿 的 局 良性 


非 人 类 方法 论 一 一 起 初 发 展 并 应 用 到 非 人 类 受 试 者 一 一 应 用 到 人 类 受 试 看 ， 
在 文献 中 产生 了 广泛 的 讨论 。 特 别 地 ,可 参见 赫 克 曼 和 史密斯 (Heckman and 
Smith，1995) ,他 们 认为 ,许多 社会 实验 可 能 唱 受 到 应 用 于 观测 研究 上 的 局 限 性 。 
这 些 问 题 涉及 诸如 实验 方法 论 与 观测 方法 论 的 比较 ,以 及 使 用 于 人 类 受 试 者 时 存 
在 的 内 在 偏 傈 和 问题 。 后 面 几 章 会 详细 地 讨论 这 几 个 问题 ,但 是 此 处 仅 提供 概览 。 

社会 实验 实施 起 来 成 本 非常 高 。 有 时 ,社会 实验 或 许 经 常 不 对 应 于 “纯洁 的 ” 
随机 化 试验 。 因 此 ,出 自 这 类 实验 的 结果 并 不 总 是 清晰 明确 且 容 易 解释 的 ,或 者 是 
没有 偏 倚 的 。 如 果 处 理 变量 具有 许多 可 供 选 择 的 关注 设置 ,或 者 如 果 外 推 是 一 个 
主要 目的 ,那么 必须 搜集 非常 庞大 的 样本 来 确保 充分 的 数据 变异 , 且 准 确 地 对 处 理 
变化 的 效应 进行 估计 。 在 这 种 情况 下 ,实验 成 本 也 会 增 大 。 如 果 成 本 因素 阻碍 了 
大 量 实验 ,那么 它 与 观测 研究 有 关 的 效用 可 能 是 不 可 靠 的 ;参见 罕 斯 曼 和 怀 斯 
(Hausman and Wise，1985) 的 《社会 实验 中 由 罗 森 (Rose) 和 斯 塔 福 德 (Stafford) 
所 撰写 的 文章 。 

不 幸 的 是 , 某 些 社会 实验 的 设计 是 有 缺陷 的 。 褒 斯 坚 和 怀 斯 (Hausman and 
Wise，1985) 曾 讨论 , 源 于 新 泽 西 州 负 收入 税 实验 的 数据 受 限 于 内 生 分 层 , 他 们 进 
行 了 如 下 描述 : 

"ee 实验 的 原因 是 通过 随机 化 ,去 掉 处 理 变量 和 正在 研究 的 其 他 响应 变 

量 的 决定 因素 之 间 的 相关 性 。 然 而 ,在 收入 生活 费 实 验 中 ,实验 样本 的 选取 是 

部 分 建立 在 因 变 量 基 础 上 的 ,并 且 指 派 处 理 及 对 照 组 也 是 部 分 建立 在 因 变 量 

基础 上 的 。 通 常 , 适 合 于 选择 的 组 一 一 建立 在 家 庭 状 况 、 种 族 、 住 户 年 龄 等 基 

础 上 一 一 是 在 收入 (或 其 他 变量 ) 基 础 上 进行 分 成 的 ,而 人 员 则 是 从 每 一 个 层 

内 选取 出 来 的 [ 豪 斯 曼 和 怀 斯 (Hausman and Wise,1985, 第 190 一 191 页 )j]。 
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作者 得 出 绪论 ,在 存在 内 生 分 层 的 情况 下 ,处理 效 应 的 无 偏 估 计 并 不 能 简单 推 
时 出 来 。 不 竺 的 是 ,完全 随机 化 的 试验 的 成 本 极 高 且 可 能 并 不 可 行 , 其 中 ,从 总 体 
中 随机 抽取 的 实验 组 内 的 处 理 指派 是 与 收入 独立 的 。 

人 存在 损坏 随机 化 实验 理想 简单 性 的 几 个 问题 。 第 一 ,如 果实 验 场所 是 随机 选 
取 的 ,就 会 需要 那个 场所 的 提供 者 和 潜在 参与 者 的 合作 。 如 果 这 不 是 现成 的 ,那么 
可 获得 这 类 合作 的 可 供 选 择 的 场所 将 作为 替代 的 ,因此 危及 随机 指派 原理 ;参见 霍 
次 (Hotz，1992) 。 

第 二 ,是 关于 样本 选择 问题 ,由 于 参与 是 目 愿 的 ,所 以 这 是 与 之 紧密 相关 的 。 
由 于 一 些 道 德 原因 ,存在 许多 不 能 人 简单 实施 的 实验 (例如 ,随机 指派 学 生 受 教育 年 
数 ) 。 与 医学 实验 能 够 达到 双 育 治疗 方案 的 黄金 标准 不 同 , 在 社会 实验 中 ,实验 者 
和 用 试 着 知道 他 们 是 否 处 于 处 理 组 或 对 照 组 。 进 一 步 地 ,对 照 组 可 能 获得 出 自 可 
供 选 择 来 源 的 处 理 ( 例 如 ,培训 )。 如 果 所 做 出 的 参与 决策 与 x 或 e 是 不 相关 的 , 那 
么 实验 数据 会 得 到 简化 。 

第 三 个 问题 是 由 受 试 者 在 实验 开始 之 后 从 实验 中 产生 的 样本 损耗 。 即 使 最 初 
样本 是 随机 的 , 非 随 机 损耗 的 效应 可 能 会 产生 类 似 于 面板 中 损耗 偏 倚 的 问题 。 最 
后 ,存在 管 柔 效应 (Hawthorne effect) 的 问题 。 这 一 术语 起 源 于 社会 心理 学 研究 ,该 
研究 是 由 哈佛 商业 管理 研究 生 院 与 西方 电力 公司 管理 部 门 在 芝加哥 的 霍 桑 工厂 从 
1926 年 到 1932 年 所 开展 的 。 不 像 无 生命 物体 ,人 类 受 试 者 尽管 在 实验 中 是 参与 
者 ,但 可 以 改变 或 适应 他 们 的 行为 。 在 这 种 情况 下 ,在 实验 中 观测 到 的 响应 的 变化 
不 能 被 认为 是 仅 由 处 理 造 成 。 

薪 死 曼 和 史密斯 (Heckman and Smith，1995) 提 到 了 在 实行 随机 化 处 理 中 的 
其 他 几 个 困难 。 由 社会 实验 的 管理 涉及 政府 机 构 , 存 在 着 潜在 的 偏 从 。 在 试验 正 
第 运作 下 ,如果 指派 引进 了 实验 参与 者 与 参与 者 之 间 的 系统 差异 ,就 产生 了 随机 化 
和 偏 位 (randomization bias) 。 朝 斯 曼 和 史密斯 用 文章 证 明了 真实 实验 存在 这 类 偏 倚 
的 可 能 性 。 画 外 一 种 侦 倚 类 型 称 为 蔡 换 偏 倚 (Csubstitution bias) , 当 对 照 组 可 接受 
某 种 形式 的 处 理 并 用 来 代 蔡 实验 处 理 时 ,就 产生 了 这 种 替换 偏 倚 。 最 后 ,社会 试验 
的 分 析 必 然 具 有 局 部 均衡 性 质 。 人 们 不 能 以 可 靠 方 式 把 处 理 效 应 外 推 到 整个 总 
体 ,因为 当 涉 及 总 体 时 ,其 余 条 件 不 变 (ceteris paribus) 的 假设 将 不 再 成 立 。 

特别 地 ,核心 问题 是 ,人 们 是 否 能 够 把 从 实验 中 得 到 的 结果 充分 地 外 推 到 总 体 
上 。 如 果实 验 在 一 个 小 规模 内 作为 探索 项 目 来 实施 ,但 计划 是 要 预测 更 广泛 地 应 
用 该 政策 的 效应 ,那么 其 明显 的 局 限 性 是 ,实测 探索 项 目 将 不 能 包括 处 理 的 较 广 泛 
的 效 末 。 比 较 广 这 应 用 的 处 理会 改变 经 济 环境 ,这 将 充分 证 明 ,在 局 部 均衡 背景 下 
的 预测 是 错误 的 。 因 此 ,这 种 处 理 将 不 会 像 它 所 模拟 的 真实 政策 那样 。 

总 之 ,社会 实验 原则 上 能够 产生 数据 ,运用 这 种 数据 比 观 测 数据 更 容易 就 原因 
与 效应 进行 分 析 和 认识 。 这 一 目标 是 否 实 现 将 依赖 于 实验 设计 。 不 好 的 实验 设计 
会 导致 统计 复 末 ,并 影 啊 到 结论 的 预测 。 社 会 实验 本 质 上 不 同 于 生物 学 和 农业 工 
的 那些 实验 ,因为 人 类 受 试 者 和 处 理 提供 者 婚 是 积极 的 又 是 有 远见 的 个 体 , 他 们 其 
有 个 人 偏好 ,而 不 是 标准 治疗 方案 的 消极 提供 者 ,也 不 是 自愿 的 接受 随机 指派 处 理 
的 接受 者 。 
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3.4 源 目 目 然 实验 的 数据 


然而 ,有 时 人 研究 者 可 以 利用 源 于 “自然 实验 ”(natural experiment) 的 数据 。 当 
总 体 的 一 个 子 集 受 限于 外 生变 量 的 变化 ,或 许 作 为 政策 变动 的 结果 ,这 常常 受 限于 
内 生变 化 ,就 产生 了 自然 实验 。 原 则 上 ,变化 的 来 源 是 很 好 理解 的 。 

在 微观 经 济 学 中 ,利用 自然 实验 的 思想 有 两 种 广泛 使 用 的 方式 。 为 了 具体 起 
见 ,考察 简单 回归 模型 : 

y=B tpBzr+tu (3. 4) 

其 中 ,xz 表示 与 x 相关 的 内 生 处 理 变量 。 

假定 存在 一 个 外 生 干 预 , 它 会 改变 zx。 这 种 外 在 干预 的 事例 包括 行政 法 规 、 非 
珊 期 法 律 、 自 然 事 件 ( 例 如 ,双胞胎 出 生 )、 有 关 天 气 的 变动 以 及 地 理 变 化 ;参见 表 
3. 2 中 事例 。 外 生 干 预 创造 了 一 种 通过 比较 干预 前 和 干预 后 影响 的 行为 或 者 干预 
后 非 影响 组 的 行为 来 估计 其 效果 的 机 会 。 也 就 是 说 , “自然 ”比较 小 组 是 由 推进 B， 
估计 的 事件 生成 的 。 因 为 z 可 看 成 外 生 的 ,所 以 估计 得 到 简化 。 


表 3.2 一 些 选 出 的 自然 试验 的 特性 


实 验 处 理 研究 文 献 
具有 不 同 受 教育 水 平 的 双胞胎 ”尽管 受 教 育 与 年 龄 之 间 相 关 ， 阿 申 费 尔 特 和 克 鲁 格 (Asb- 
的 结果 但 受 教育 回报 上 有 差异 enfelter and Krueger, 1914) 


加 拿 大 萨 斯 喀 彻 温 省 国家 健康 建立 在 具有 NHI 与 没有 NHI 格 鲁 伯 和 汉 拉 迪 (Gruber 
保险 转变 到 NHI 及 后 来 持续 的 省 份 比较 基础 之 上 的 NHI and Hanratty，1995 ) 


多 年 的 其 他 形式 的 劳动 力 市 场 影 啊 
新 泽 西 州 提 高 最 低 工资 而 邻近 最 低 工资 对 就 业 的 影响 卡 德 和 死 鲁 格 (Card and 
的 宾夕法尼亚 州 没 有 变化 Krueger, 1994) 


自然 实验 可 以 帮助 推断 的 第 二 种 方法 ,是 通过 生成 自然 工具 变量 来 进行 的 。 

假定 z 表示 一 个 变量 , 它 与 z 是 相关 的 ,或 者 在 原因 形式 上 与 x 有 关 , 且 与 无关。 
于 是 ,B 的 工具 变量 (instrumental variable) 估 计量 可 用 样本 协 方 差 形 式 表示 , 即 . 

5 _CovLz，y | 

”Cov[ zz 

(人 参见 4. 8. 5 节 。) 在 观测 数据 背景 下 ,要 找 出 具有 正确 性 质 的 工具 变量 可 能 很 困 

难 ,但 是 ,在 有 利 的 自然 实验 中 , 却 可 以 自然 地 产生 工具 变量 。 于 是 ,估计 得 以 简 

化 。 我 们 将 在 下 一 节 考 察 第 一 种 情况 ;第 25 章 将 讨论 自然 生成 工具 这 一 专题 。 


3.4.1 月 人 然 外 生子 预 


收集 这 类 数据 并 不 昂贵 ,而 且 这 类 数据 允许 研究 者 去 评估 隔离 中 的 某 一 特定 
因素 的 作用 ,如 同 可 探 实验 一 样 ,因为 “自然 "对 其 他 并 不 直接 关注 的 因素 来 说 , 提 
供 恒 定 变 异 的 贡献 。 这 种 目 然 实验 是 引 人 注 目的 ,因为 它们 花费 不 多 , 且 在 现实 世 
界 背 景 下 就 可 生成 处 理 组 和 对 照 组 。 一 个 自然 实验 能 否 支 持 令 人 信服 的 推断 ,部 





(3. 5) 
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了 二 


分 地 依赖 于 支持 自然 干预 是 否 真 正 是 外 生 的 , 它 的 影响 是 否 是 以 达到 可 测量 的 程 
度 以 及 是 否 存在 良好 的 处 理 组 和 对 照 组 。 例 如 , 正 因为 变动 是 通过 立法 而 产生 的 ， 
所 以 并 不 意味 着 它 是 一 个 外 生 的 和 干预。 然而 ,在 适当 情况 下 ,对 这 类 数据 集 不 失 时 
机 地 利用 ,能 够 产生 有 价值 的 实证 观点 。 

建立 在 自然 实验 基础 上 的 研究 探索 具有 几 个 潜在 的 局 限 性 ,在 任何 一 项 给 定 
研究 中 ,其 重要 性 只 能 通过 仔细 地 考虑 有 关 理 论 . 事 实 以 及 制度 背景 才 会 得 到 评 
估 。 洛 着 坎贝尔 (Campbell，1969) 和 迈 耶 (Meyer，1995 ) 的 线索 ,可 以 把 局 限 性 分 
为 :影响 研究 内 部 有 效 性 的 影响 (也 就 是 说 ,对 从 研究 中 推出 的 政策 影响 进行 推断 ) 
与 影响 研究 外 部 性 的 影响 (也 就 是 说 ,把 结论 推广 到 总 体 中 的 其 他 元 素 上 )。 

利用 下 面 将 简要 描述 的 以 及 将 在 第 25 章 详细 讨论 的 回归 方法 ,通过 比较 从 干 
预 前 与 数据 干预 后 中 推导 出 的 结论 ,来 考察 政策 变动 的 调查 人 研究。 在 任何 研究 中 ， 
都 存在 省 略 变量 -一 一 在 政策 变动 与 其 影响 之 间 的 时 间 区 间 上 还 会 变化 的 变量 。 所 
抽取 的 个 体 特征 ,诸如 年 龄 、 健 康 状况 以 及 他 们 的 真实 经 济 环境 或 预期 的 经 济 环 
境 , 可 能 也 会 有 变化 。 这 些 省 略 因 素 将 直接 影响 到 政策 变动 的 影响 。 结 果 能 否 推 
广 到 总 体 中 其 他 元 素 上 ,将 依赖 于 缺少 由 非 随机 抽样 而 引起 的 偏 倚 、 政 策 变动 和 其 
背景 之 间 交 互 作 用 效应 的 显著 存在 ,以 及 缺少 引起 影响 从 一 种 情况 到 另 一 种 情况 
改变 的 历史 因素 。 当 然 ,这 些 考 虑 对 于 来 自 自然 实验 的 数据 而 言 不 是 唯一 的 ; 然 
而 ,其 意义 是 ,后 者 不 一 定 就 不 受 这 些 问 题 的 困扰 。 


3.4.2 老 异 中 的 差分 


一 种 简单 的 回归 方法 是 建立 在 对 政策 干预 之 前 与 之 后 的 同一 个 组 结果 的 比较 
基础 之 上 。 例 如 ,考察 : 
yi a BD, Te. i 二 1] ,*** ,NN， :=0,1 


其 中 ,D, 一 1 表示 处 于 第 1 时 期 (干预 后 ),D, = 二 0 表示 处 于 第 0 时 期 (干预 前 ) ,而 
yi 测量 结果 从 合并 数据 中 估计 出 来 的 回归 ,将 产生 政策 影 啊 参数 8 的 估计 值 。 很 
容易 证 明 , 这 生 于 干 现 前 与 干预 后 结 来 的 平均 差 : 
B 一 入 2 ,Cy 一 io) 
二 yi 一 yo 

一 个 组 在 设计 之 前 写 之 后 要 做 出 强 的 假设 :该 组 对 于 不 同 的 时 间 保 挂 可比 性 。 
这 就 要 求 8 具有 可 识别 性 。 例 如 ,如 有 果 我 们 允许 a 在 两 个 时 期 之 间 变 化 ,那么 8 就 
不 再 是 可 识别 的 了 。a 的 变化 会 与 政 案 影 啊 滥 消 。 

对 前 面 设 计 加 以 改进 的 一 种 方法 是 包括 一 个 附加 的 未 处 理 比较 组 ,也 就 是 说 ， 
它 未 受到 政策 影 啊 , 而 其 数据 在 两 个 时 期 都 是 可 利用 的 。 利 用 迈 耶 (Meyer，1995) 
的 记号 ,现在 有 关 的 回归 是 : 

yy 一 w 十 al 万 ,十 wo DD 十 BD el ， 1 一 ],*…,N, 1 二 0,1] 

其 中 ,7 表示 组 的 下 标 。 如 果 7 一 1 那么 D' 二 1; 否 则 ,D’ 一 0。 如 果 j 二 1 县 :二 1, 奢 
么 访 二 1; 否则 ,DD 一 0。e 表示 具有 零 均值 和 常 值 方差 的 误差 项 。 该 方程 没有 包含 
协 变 量 , 但 是 可 以 添加 它们 ,而 那些 不 变化 的 项 已 经 归 入 a 中 。 这 种 关系 缠 售 着 ， 
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对 于 已 处 理 组 来 说 ,我 们 有 干预 前 的 : 
人 一 a 十 @ 万 十 Ein 


与 干预 后 的 : 
yi 一 a 十 aa 十 oa 十 8 十 sl 
因此 ,其 影响 是 : 
3 一 yo 一 al 十 Beil —eio (3. 6) 
对 于 未 处 理 组 而 言 ,其 相应 的 方程 是 : 
y% 一 a 十 si 
yi 二 a 十 @i 十 El 
从 而 ,其 差 为 : 
yi1 Yio =a te 一 6 (3.7) 


这 两 个 一 阶 差分 方程 都 包含 第 1 时 期 的 特殊 效应 w ,这 能 通过 对 方程 (3. 6) 与 方程 
(3.7) 取 老 分 而 得 以 剔除 : 

(yi 一人) 一 (加 一 内 ) 一 8 十 (si 一 sio) 一 (es 一 6io) 《3. 8 ) 
假定 EL (Ce; 一 eio) 一 (er 一 em)j 二 0, 我 们 能 通过 (yi 一 yio) 一 (yi 一 yo ) 的 样本 平均 
来 获得 8 的 无 俩 佑 计 全 。 这 一 方法 使 用 了 差异 中 差分 (differences in differences ) 。 
如 果 存 在 时 变 协 变量 ,那么 它们 包含 在 有 关 方 程 中 ,而 且 其 差分 将 出 现在 回归 方程 
(3. 8) 之 中 。 

为 了 简单 起 见 , 我 们 的 分 析 忽 略 了 处 理 组 与 对 照 组 的 特征 分 布 之 间 存 在 的 观 
误差 异 。 如 有 果 是 这 样 的 话 , 那 么 这 类 差异 就 必须 加 以 控制 。 其 标准 解决 方法 是 回 
归 中 包含 这 类 控制 变量 。 

建立 在 自然 实验 基础 上 的 一 个 研究 事例 是 , 阿 申 费 尔 特 和 克 鲁 格 (Ashenfelter 
and Krueger，1994) 的 研究 。 他 们 通过 将 同一 双胞胎 的 工资 率 与 其 不 同 的 受 教育 
水 平 加 以 对 比 来 估计 受 教 育 回 报 。 在 此 情况 下 ,实施 常规 的 实验 是 不 可 行 的 ,实验 
中 的 个 体 被 外 生地 指派 了 各 种 不 同 的 受 教育 水 平 。 不 过 , 某 个 实验 类 型 的 控制 是 
需要 的 。 正 如 作者 解释 的 : 


我 们 的 目标 是 ,确定 我 们 在 受 教育 和 工资 率 之 间 所 观测 到 的 相关 性 ,而 不 
是 来 自爱 教育 和 工人 能 力 或 者 其 他 特征 之 间 的 相关 性 。 我 们 这 样 做 利用 了 下 
述 事实 :单一 受精 卵 双 胞 胎 一 般 是 相同 的 ,并 且 具 有 相似 的 家 庭 背 景 。 
双胞胎 数据 被 用 作 一 系列 其 他 经 济 计量 人 研究 的 基础 | 罗 猴 次 韦 格 和 沃 尔 平 
(Rosenzweig and Wolpin, 1980); 布 罗 纳 斯 和 格 罗 格 (Bronars and Grogger， 
1994) ]。 由 于 总 体 中 双胞胎 概率 并 不 高 ,一 个 重要 问题 是 收集 充分 大 的 代表 性 样 
本 ,考虑 某 种 无 响应 。 这 类 数据 的 一 个 来 源 是 人 口 普查 , 另 一 个 来 源 是 在 美国 举行 
的 “双胞胎 节日 ?。 阿 申 费 尔 特 和 克 鲁 格 (Ashenfelter and Krueger, 1994, 1 158 
页 ) 曾 经 报告 了 他 们 从 第 16 届 双 胞 胎 节 日 , 即 1991 年 8 月 在 俄 雍 俄 州 的 特 维 斯 伯 
格 举行 的 年 度 市 日 ,通过 访问 所 获得 的 数据 知 , 这 个 节日 是 世界 上 最 大 的 双胞胎 、 
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三 胞 胎 以 及 四 胞 胎 聚 会 。 

利用 双胞胎 数据 的 好 处 是 ,存在 的 既 出 目 可 观测 因素 又 出 目 不 可 观测 因素 的 
共同 效应 ,能 够 通过 对 双胞胎 结果 之 间 的 差异 进行 建 模 而 去 掉 。 例 如 , 阿 申 费 尔 特 
和 克 鲁 格 曾 倍 计 双胞胎 中 的 老大 和 老 二 之 间 工 资 率 对 数 差 异 的 回归 模型 。 第 一 个 
差异 运算 可 去 掉 年 龄 性别. 民族 地 位 等 影响 。 剩 下 的 解释 变量 是 受 教 育 水 平一 一 
作为 主要 关注 的 变量 一 一 和 诸如 职位 年 限 与 婚姻 状况 变量 之 间 的 差别 。 


3.4.3 通过 月 然 侨 验 进 行 丰 出 


自然 实 验 学 派对 经 济 计 量 时 间 具 有 十 分 有 益 的 影响 。 通 过 利用 半 实 验 数 据 的 
机 会 以 及 利用 诸如 第 2 章 POM 的 建 模 框架 ,经 济 计量 时 间 在 观测 数据 与 实验 数据 
之 间 的 空白 处 架 起 一 座 桥梁 。 源 于 SEM 框架 的 参数 识别 概念 ,可 扩展 到 从 政策 观 
点 来 看 非常 有 趣 的 对 测量 的 识别 。 利 用 源 目 自然 实验 数据 的 主要 优 氮 是 ,关注 的 
政策 变量 可 以 被 处 理 成 外 生 的 。 然 而 ,在 利用 源 自 自然 实验 的 数据 中 ,如 同 在 社会 
实验 情况 一 样 ,对 对 照 组 的 选择 ,在 确定 结论 的 可 靠 性 方面 起 者 极其 重要 的 作用 .。 
影响 社会 实践 的 几 个 沟 在 问题 ,譬如 选择 性 和 损耗 侦 傈 ,在 目 然 实验 情 交 下 仍旧 是 
一 些 潜在 问题 。 引 起 关注 的 政治 问题 的 一 个 子 集 ,会 在 目 然 实验 框架 内 加 以 分 析 。 
实验 仅 对 总 体 中 的 一 小 部 分 可 以 使 用 (应 用 ) ,而 且 它 的 发 生 条 件 不 会 很 容易 地 目 
我 重复 。22. 6 节 给 出 的 一 个 事例 在 差异 中 的 差分 背景 下 阐明 这 一 点 。 


3.5 应 用 研究 


尽管 存在 着 对 微观 数据 的 多 种 数字 和 类 型 的 应 用 ,但 建立 展 好 的 数据 库 可 以 
支持 大 量 的 研究 。 我 们 提供 一 些 在 美国 著名 的 数据 库 中 非常 少 的 一 部 分 目录 。 对 
于 进一步 详细 内 容 , 参 见 这 些 数 据 的 各 自 网 站 或 者 下 面 提 太 的 数据 信息 中 心 ,其 中 
的 一 些 允 许 你 直接 下 载 数 据 。 


3.5.1 微观 数据 的 东 些 来 源 


收入 动态 面板 研究 (Panel Study in Income Dynamics，PSID) PSID 从 1968 
年 开始 执行 全 国 性 调查 ,其 调查 研究 中 心 建立 在 密 欣 根 大 学 。 目 前 , 它 涵盖 40 000 
多 人 ,并 且 收 集 经 济 和 人 口 数据 。 这 些 数 据 用 于 支持 相当 广泛 的 微观 经 济 计量 分 
析 。 布 朗 .邓肯 和 斯 塔 福 德 (Brown，Duncan and Stafford，1996) 曾 概述 PSID 数 
据 的 最 新 发 展 。 

当前 人 口 调 查 (Current Population Survey，CPS) 这 是 一 个 对 50 000 个 住户 
(家 庭 ) 的 每 月 国家 调查 , 它 提 供 了 劳动 力 特 征 的 信息 。 这 种 调查 已 经 执行 了 50 年 
以 芋 。 对 样本 的 主要 修改 来 自 每 一 次 人 口 普 查 。 有 关 这 个 调查 的 其 他 详细 内 容 ， 
参见 24.2 节 , 它 已 成 为 许多 联邦 政府 统计 工资 和 失业 的 基础 。 它 还 特别 是 文 持 荔 
动力 市 场 大 量 研究 的 主要 微观 数据 来 源 。 该 调查 在 1994 年 被 重新 设计 |[ 波 利文 卡 
(Polivka, 1996) ] 。 
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全 国 纵向 调查 CNational Longitudinal Survey，NLS) NLS 具有 四 个 最 初 分 
组 :NLS 老年 男人 、NSL 青年 男人 、NLS 成 年 妇女 .NLS 青年 妇女 。 每 一 个 最 初 分 
组 是 对 大 致 5 000 个 个 体 的 国家 每 年 调查 ,这 些 个 体 从 20 世纪 60 年 代 中 期 开始 重 
复 访问 。 调 查 要 收集 每 一 个 回答 者 的 工作 经 历 .教育 、. 培 训 、 家 庭 收 入 .家庭 组 成 、 
婚姻 状况 以 及 健康 状况 。 有 关 年 龄 .性 别 等 补充 数据 都 可 以 利用 。 

全 国 纵向 青年 调查 CNational Longitudinal Surveys of Youth, NLSY) NLSY 
是 国家 每 年 对 12 686 个 青年 男子 和 青年 女子 的 调查 ,他们 的 年 龄 从 14 岁 到 22 岁 ， 
第 1 次 调查 是 从 1979 年 开始 的 。 它 包括 三 个 子 样本 。 该 数据 为 研究 青年 人 大 样 
本 的 生活 方式 提供 了 机 会 ,而 这 些 青 年 人 是 美国 男人 和 妇女 的 代表 ,他 们 出 生 在 
20 基 纪 50 年 代 后 期 和 60 年 代 早 期 。 第 二 次 NLSY 开始 于 1997 年 。 

收入 和 项 目 参 与 调查 (Survey of Income and Program Participation，SIPP) 
SIPP 是 每 月 对 大 约 8 000 个 家 庭 单元 进行 的 纵向 调查 。 它 涵盖 了 收入 来 源 、 参 与 
政府 津贴 项 目 、 这 些 项 上 自 之 间 的 相关 性 ,以 及 个 人 参加 职业 市 场 期 限 。 它 在 每 一 个 
日 历年 的 开始 引进 新 的 面板 数据 的 一 种 多 重 面板 调查 。SIPP 的 第 一 个 面板 数据 
开始 于 1983 年 10 月 。 与 CPS 相 比 ,SIPP 具有 和 较 少 的 就 业者 和 较 多 的 失业 者 。 

健康 和 退休 研究 (Health and Retirement Study, HRS) ”HRS 是 对 国家 的 纵向 
研究。 其 基础 是 由 1992 年 开始 .持续 12 年 .对 7 600 个 家 庭 成 员 ( 回 答 者 年 龄 从 
51 岁 到 61 岁 ) 的 采访 数据 构成 的 ,其 中 ,后 续 访 问 每 两 年 进行 一 次 。 数 据 包 括 经 
济 财 产 、 人 口 特征 以 及 健康 信息 。 

世界 银行 生 消 标准 测 最 研究 (Worid Bank's Living Standards Measurement 
Study，LSMS) ”世界 银行 LSMS 家 庭 调查 搜集 许多 发 展 中 国家 的 数据 ,这 些 数据 
是 关于 “家 性 健康 的 许多 难度 可 用 于 评估 家 庭 的 福利 .认识 家 庭 行为 以 及 估计 各 种 
政府 政策 对 人 们 生活 条 件 的 效应 ”。 运 用 这 些 数 据 的 一 些 例子 可 在 迪 顿 (Deaton， 
1997) 以 及 经 济 发 展 文献 中 找到 。 格 罗 什 和 格 利 (Grosh and Glewwe,1998) 曾 经 概 
述 数据 的 性 质 ,并 提供 了 利用 它们 进行 研究 的 参考 文献 。 : 

数据 交换 (Data ClearingHouses) ”政治 和 社会 研究 大 学 联盟 (The Interuni- 
versity Consortium for Political and Social Research, ICPSR ) 提 供 许 多 数据 和 集 , 包 
反 PSID、CPS、NLS.、SIPP、 国 家 医疗 费用 支出 调查 (NMES) 以 及 其 他 数据 。 美 国 
方 动 力 统计 局 掌握 着 CPS 与 NLS。 美 国人 口 普 查 局 掌握 着 SIPP。 美 国 国家 健康 
统计 中 心 提 供 许多 健康 数据 集 。 通 往 欧洲 数据 档案 的 有 用 途径 是 欧洲 社会 科学 数 
据 档 案 委 员 会 (CESSDA), 它 提供 对 几 个 欧洲 国家 数据 档案 的 链接 。 

期 刊 数据 档案 (Journal Data Archives) ”就 许多 目的 而 言 ; 诸 如 为 课堂 教学 工 
作 复 制 已 出 版 的 结果 ,你 可 以 从 期 刊 档案 (journal archives) 中 获得 数据 。 特 别 地 ， 
两 个 梢 案 具 有 利用 因特网 浏览 大 进行 上 传 与 下 载 数 据 的 建立 良好 的 程序 .。《 商 业 
和 经 济 统 计 学 洒 志 》(Journal of Business and Economic Statistics ) 拥 有 可 用 于 那 
本 期 刊 中 大 部 分 但 不 是 全 部 已 出 版 的 文章 数据 。《 应 用 经 济 计量 学 杂志 》(Journal 
of Applied Econometrics) 数 据 档 案 也 是 以 类 似 方式 组 织 的 ,并 且 包 括 与 从 1994 
年 开始 出 版 的 大 部 分 文章 有 关 的 数据 。 


.9 微观 经 济 数据 结构 


人 


3. 3.2 处 理 微 驳 数据 


微观 经 济 数 据 集 趋 四 于 十 分 庞大 的 集合 。 容 量 为 成 百 上 千 的 样本 是 普通 的 ， 
甚至 那些 容量 为 数 十 万 的 样本 也 并 不 奇怪 。 关 注 结果 的 分 布 经 党 是 非 正 态 的 ,其 
部 分 原因 常常 是 处 理 离 散 数 据 , 辟 如 二 值 结果 , 或 者 处 理 具 有 有 限 变 异 的 数据 , 辟 
如 比例 或 份额 ,或 者 处 理 截取 或 删 失 连续 结果 的 数据 。 处 置 大 量 的 非 正 态 数据 ,会 
产生 对 数据 重要 特性 进行 概括 和 报告 的 一 些 问题 。 


3. 5.3 数据 叭 备 


微观 经 济 计量 分 析 的 最 基本 的 特征 是 :有关 使 样本 最 终 应 用 于 经 济 计量 研究 
的 过 程 , 可 能 具有 悠久 的 历史 。 重 要 的 是 ,在 对 数据 整理 "的 过 程 中 ,人 研究 少 要 准 
确 地 利用 大 量 事实 来 做 出 决策 和 选择 。 让 我 们 考虑 一 些 特定 的 事例 。 

样本 调查 数据 最 普 过 的 特征 之 一 是 无 响应 (nonresponse) 或 者 部 分 响应 。 无 啊 
应 问题 已 经 讨论 过 。 部 分 啊 应 通常 意味 着 ,调查 问题 表 中 的 一 部 分 没有 得 到 回答 ， 
如 来 这 意味 着 所 需要 的 信息 有 一 部 分 是 不 可 以 利用 的 ,那么 不 确定 的 观测 值 就 要 
被 删除 ,这 称 为 逐 表 删除 ‘1I(listwise deletion)。 如 果 这 种 问题 以 显著 数量 出 现 ， 
贺 应 该 正确 地 加 以 分 析 并 且 报 告 , 因 为 它 会 导致 非 代 表 性 样本 以 及 佑 计 偶 倚 。 这 
一 问题 将 在 第 27 章 加 以 分 析 。 例 如 ,考虑 家 庭 调查 中 那些 高 收入 家 尾 没 有 做 出 啊 
应 的 问题 ,会 产生 对 这 些 家 庭 未 充分 代表 的 样本 。 因 此 ,最 终 效果 与 那些 存在 完全 
啊 应 但 样本 是 非 代表 性 的 情形 并 无 不 同 。 

第 二 个 问题 是 报告 数据 中 的 测量 误差 (measurement error) 。 微 观 经 济 数据 一 
般 上 共有 了 噪声。 测量 误差 的 范围 .类 型 以 及 严重 性 , 均 依 赖 于 调查 是 模 截 面 还 是 面板 
类 型 对 调查 做 出 啊 应 的 个 体 以 及 有 关 所 要 寻找 信息 的 变量 ,例如 ,来 目 面 板 调 查 
的 目 报 告 收入 数据 ,被 认为 具有 很 强 的 序列 相关 测量 误差 。 相 反 , 所 报告 的 开 文 费 
用 数目 通常 被 认为 具有 较 小 的 测量 误差 。 迪 顿 (Deaton，1997) 调 查 了 特别 参考 世 
界 银行 “生活 标准 测量 调查 "的 测量 误差 来 源 , 尽 管 所 产生 的 几 个 问题 具有 广泛 的 
关联 性 。 来 源 于 测量 误差 的 偏 倚 依赖 于 用 变换 形式 对 数据 所 做 的 改变 (例如 ,一 阶 
差分 ) 以 及 所 使 用 的 估计 量 。 因 此 ,为 了 对 有 关 来 自 测量 误差 的 严重 性 做 出 有 价值 
的 陈述 ,人 们 必须 对 定义 良好 的 模型 加 以 分 析 。 后 面 几 章 将 给 出 在 特定 痛 景 下 测 
量 误差 影响 的 一 些 事例 。 


3.5.4 检查 数据 


在 极 多 数据 的 集合 中 ,很 容易 产生 由 键盘 录入 和 编码 错误 引起 的 错误 数据 。 
因此 ,人 们 应 该 使 用 一 些 基本 检查 ,以 便 揭示 存在 的 问题 。 人 们 在 对 数据 分 析 之 
前 ,通过 审查 一 些 描述 统计 学 来 检查 数据 。 下 面 一 些 技术 是 有 用 的 。 第 一 ,运用 概 
括 统计 量 ( 最 小 值 . 最 大 值 、 均 值 以 及 中 位 数 ) 来 确保 数据 位 于 正常 区 间 与 正常 下 度 
上 。 例 如 ,类 型 变量 应 该 是 介 于 0 一 1 之 间 。 计 数 则 应 该 大 于 或 等 于 0。 有 时 候 , 人 缺 


[12 又 称 为 单 举 法 剔除 。 一 一 译 者 注 
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失 数 据 标记 为 一 999, 或 者 为 某 些 其 他 整数 ,因此 ,一 定 不 要 把 这 些 处 理 成 数据 。 第 
二 ,人 们 应 该 知道 变动 是 以 分 数 扩 度 还 是 以 百分比 尺度 衡量 。 第 三 ,利用 盒 须 图 
(box and whisker) 来 识别 有 问题 的 观测 值 。 例 如 ,利用 盒 须 图 ,研究 者 发 现 一 个 具 
有 仙人 口 增长 的 国家 ( 归 因 于 战争 ) ,而 男 外 一 个 国家 所 报告 的 投资 大 于 GDP( 因 
为 外 国 援助 被 从 GDP 中 排除 掉 )。 在 继续 进行 估计 前 ,检查 观测 值 还 可 以 建议 ,对 
于 适合 建立 一 个 特殊 数据 集 的 特性 ,进行 正 态 化 变换 与 或 分 布 假设 。 第 三 , 筛选 数 
据 (screening data) 建 议 对 适当 的 数据 进行 变换 。 例 如 , 画 盒 须 图 与 直方 图 ,能 建议 
嘟 些 变 量 通过 对 数 变 换 或 项 变换 会 比较 适合 于 建 模 。 就 某 些 目 的 而 言 , 比如 使 用 
非 线性 佑 计量 .改变 变量 大 小 以 使 它们 具有 大 致 相同 的 尺度 ,这 是 人 们 所 希望 的 。 
概括 统计 量 可 用 于 检查 变量 的 均值 .方差 以 及 协 方差 ,从 而 显示 正确 尺度 。 


3.5.5 展现 扬 述 统计 量 


因为 微观 数据 集 通常 是 巨大 的 ,极其 重要 的 是 ,要 向 读者 提供 用 于 描述 每 一 个 
变量 的 统计 量 的 最 初 表格 , 它 通常 包括 均值 .标准 差 . 最 小 值 以 及 最 大 值 。 在 一 些 
情况 下 ,出 乎 意料 的 大 值 或 者 小 值 ,会 揭示 出 全 部 记录 误差 或 并 入 了 不 正确 数据 点 
错误 的 存在 。 通 常 , 双 向 散 点 图 不 是 有 用 的 ,但 类 别 变量 (又 称 属 性 变量 ?列表 ( 列 
联 表 ) 却 是 有 益 的 。 对 于 离散 变量 来 说 ,直方 图 是 有 用 的 ;而 对 于 连续 变量 来 说 , 密 
度 图 则 提供 有 用 信息 。 


3.6 文献 注释 


3.2 这 顿 (Deaton，1997) 曾 经 特别 提供 关于 发 展 中 经 济 的 抽样 调查 引 论 。 
第 24 章 将 提供 复杂 调查 的 几 个 特定 参考 文献 。 贝 克 迪 等 人 (Becketti et al.， 
1988) 曾 研究 PSID 代表 性 问题 的 重要 性 。 

3.3 由 豪 斯 曼 和 怀 斯 (Hausman and Wise，1985) 主编 的 文集 包括 几 篇 有 关 
个 人 社会 实验 的 论文 ,其 中 包含 RHIE. NIT 以 及 分 时 电价 实验 (Time-of-Use 
Pricing experiment) 。 一 些 人 研究 质疑 实验 数据 的 有 用 性 ,而 且 对 妨碍 得 出 结论 的 实验 
设计 方面 的 缺点 存在 广泛 讨论 。 伯 特 莱 斯 (Burtless，1995) 以 及 赫 克 曼 和 史密斯 
(Heckman and Smith，1995) 的 两 篇 杰出 论文 讨论 了 社会 实验 与 观测 数据 的 优 缺 点。 

3. 4 《商业 和 经 济 统计 学 杂志 》(Journal of Business and Economic Statistics, 
1995) 的 特定 专刊 ,发 表 了 运用 准 实验 和 自然 实验 的 一 系列 论文 。 文 集 包 括 迈 耶 综 
述 了 源 于 自然 实验 数据 的 经 济 计量 研究 方法 论 及 其 问题 的 论文 。 他 还 遵循 自然 变 
动 方 面 一 系列 有 价值 的 指导 路 线 , 这 些 都 部 分 地 建立 在 坎贝尔 (Campbell，1969) 
的 研究 基础 上 , 金 和 辛 安 尔 (Kim and Singal，1993) 利 用 航空 公司 并 购 , 人 研究 市 场 
集中 变化 对 价格 的 影响 。 罗 条 次 韦 格 和 放 尔 平 (Rosenzweig and Wolipin，2000) 回 
顾 建 立 在 自然 实验 譬如 双胞胎 实验 基础 上 的 广泛 文献 。 苏 了 萨 克 和 森 (Isacsson， 
1999) 利 用 瑞典 人 数据 ,使 用 双胞胎 方法 研究 了 受 教 育 回报 。 安 格 里 斯 竺 和 拉 维 
(Angrist and Lavy，1999) 研 究 班级 大 小 对 测验 的 影响 ,利用 受 限 于 "还 索尼 德 斯 
规则 ?”(Maimonides” Rule, 有 关内 容 将 在 25. 6 节 衡 略 评述 ) 的 学 校 数 据 , 他 们 认为 ， 
班级 的 大 小 不 应 超过 40 人 。 该 规则 生成 一 个 工具 。 





详细 内 容 , 以 便 使 实 路 者 可 以 阅读 与 领会 重要 经 济 计量 学 期 刊 上 的 论 
: 并 且 提 供 本 书后 续 章 节 所 需要 的 知识 我 们 公 定 ,读者 已 炙 线 性 回归 








se A 





网 二 本 的 最 广泛 合 用 的 估计 方法 ， 在 对 极 人 人 扩 及 





本 省 述 基本 估计 理论 ， 上 人 加 上 开 双 ， 
gt 论 水 平 上 绍 分 位 数 回归 te 行 












一 二 本 本 一 一 有 本 本 一 一 二 本 一 一 有 本 一 一 


4.1 引 论 


在 微观 经 济 计量 学 中 ,大 量 实证 研究 都 使 用 线性 回归 及 其 各 种 变形 。 在 进入 
本 书 重 点 内 容 即 非 线 性 回归 之 前 ,我 们 将 提供 关于 横 截 面 数据 的 单方 程 线性 回归 
模型 的 某 些 重 要 结果 的 概览 。 有 关 线 性 回归 模型 的 几 种 不 同 的 估计 量 也 将 加 以 前 述 。 

尤其 是 普通 最 小 二 乘 (OLS) 估 计 特 别 受 到 人 们 喜爱 。 对 于 一 般 的 微观 经 济 计 
量 横 截面 数据 模型 来 说 ,模型 误差 项 可 能 是 异 方差 的 。 于 是 ,就 异 方差 误差 而 言 ， 
统计 推断 应 该 是 稳健 的 ,并 有 旦 ,通过 使 用 加 权 最 小 二 乘法 而 不 是 OLS 来 获得 有 效 
性 提高 是 可 行 的 。 

OLS 估计 量 是 对 残 差 平方 和 求 最 小 值 。 一 种 可 选择 的 方法 是 对 残 差 绝对 值 
之 和 求 最 小 值 ,从 而 得 到 最 小 绝对 偏差 估计 量 。 此 估计 量 连 同 分 位 数 回归 的 推广 ， 
也 将 得 到 阐述 。 

对 各 种 模型 的 错误 设 定 会 导致 最 小 二 乘 估 计量 的 非 一 臻 性。 在 这 些 情况 下 ， 
对 经 济 上 关注 的 参数 进行 推断 就 需要 更 高 等 的 方法 ,本 书 将 对 这 些 方法 进行 详细 
而 深入 的 阐述 。 一 种 普遍 使 用 的 方法 是 工具 变量 回归 。 本 章 将 对 该 重要 方法 提供 


”一 个 介绍 性 研究 ,并 且 讨 论 弱 工具 的 含义 。 


4.2 节 提供 回归 定义 ,并 曾 述 各 种 损失 也 数 ,从 而 引出 回归 函数 的 各 种 不 同 的 
估计 量 。4. 3 节 给 出 一 个 事例 。 一 些 重要 的 估计 方法 ,尤其 是 普通 最 小 二 乘法 、 加 
权 最 小 二 乘法 以 及 分 位 数 回归 ,分别 在 4.4 节 .4.5 节 以 及 4.6 节 加 以 半 述 。 对 模 
型 错误 设 定 将 在 4. 7 节 考 察 。4. 8 节 与 4.9 节 均 阐 述 工具 变量 问 归 。4. 3 节 一 4.5 
,4.7 节 以 及 4.8 广 将 涵盖 引 论 课程 中 的 标准 内 容 , 而 4.2 节 、4.6 节 以 及 4.9 节 
则 引进 更 高 等 的 内 容 。 


“4.2 回归 与 损失 函数 


在 现代 微观 经 济 计量 学 中 , “回归 ”(regression) 这 一 术语 意 指 ,研究 结果 变量 y 
与 一 系列 回归 元 x 之 间 关 系 的 众多 方法 。 因 此 ,阐述 某 些 重 要 回归 形式 是 有 益 的 。 
为 了 解释 方便 ,考察 给 定 x 时间 归 作为 y 的 条 件 预 测 (conditional prediction) 
的 目的 。 在 实际 应 用 中 ,回归 模型 还 用 于 其 他 目的 ,尤其 是 因果 关系 的 推断。 尽管 


微观 经 济 计 量 学 


这 样 , 预 测 艺 数 是 对 有 用 数据 的 一 种 概括 ,同时 仍然 是 关注 的 内 容 。 特 别 地 ,参见 
4. 2. 3 慷 中 关于 线性 预测 和 建立 在 线性 因果 均值 上 的 因果 推断 之 间 的 差异 ，。 


4.2.1 换 失 阴 六 


设 3 表示 预测 量 和 1 1(predictor) ,把 它 定 义 成 x 的 也 数 。 设 e 三 y 一 了 表示 预测 
误差 (prediction error) ,并 设 : 
L,(e)=L(y— y) | (4.1) 


表示 与 误差 e。 有 关 的 损失 (loss)。 如 同 在 决策 分 析 中 ,我 们 假定 预测 量 构成 某 一 决 
束 的 基础 ,而 预测 误差 则 会 导致 决策 者 的 不 利和 “2(disutility) , 这 由 L(e) 所 刻画 ， 
L(e) 的 精确 函数 形式 是 由 决策 者 来 选择 的 。 损 失 函 数 具 有 随 |e| 增 大 而 递增 的 特 
性 。 一旦 把 (y，3) 处 理 成 随机 的 ,对 决策 者 损失 函数 的 期 望 值 求 最 小 值 , 记 为 
ELL(e) ]。 如 果 预 测量 依赖 于 维 回 量 x, 那 么 期 望 损失 (expected loss) 可 表述 成 : 
ELL((y— >)|x) | (4. 2) 
对 帘 失 上 为数 的 选择 ,本质 上 应 依赖 于 与 预测 误差 有 关 的 损失 。 在 一 些 场合 , 臂 
如 天 气 预报 ,也 许 存 在 关于 选取 一 种 损失 函数 而 不 是 其 他 函数 的 一 个 可 第 基础 。 
在 经 济 计量 学 中 ,往往 不 存在 显而易见 的 指南 ,习惯 上 是 设 定 二 次 损失 。 于 
是 ,把 式 (4. 1) 专 门 化 为 L(e) 二 2, 同时 通过 式 (4.2), 最 优 预 测量 是 对 期 望 误 差 
ELL(elx) 二 ELe | xj 求 最 小 值 。 由 此 可 得 ,在 这 种 情况 下 ,最 小 均 方 预测 误差 准则 
常用 于 比较 预测 量 。 


4.2.2 大 优 预测 
选择 最 优 预 测量 (optimal predictor) 的 决策 理论 是 通过 最 小 化 期 望 损失 Cmini- 


mizing expected loss) 
min EL LCCy—»)|x) | 
构成 的 。 因 此 ,最 优 性 的 性 质 是 与 决策 者 的 损失 因数 有 关 的 。 
表 4. 1 给 出 损失 六 数 的 四 个 重要 事例 ,以 及 相关 的 最 优 预测 量 函 数 。 我 们 依 
次 对 每 一 种 方法 提供 一 个 简要 的 介绍 。 详 细 分析 已 由 曼 斯 基 (Manski，1988a) 给 出 。 
表 4.1 损失 函数 与 对 应 的 最 优 预测 式 


损失 立 数 类 型 定 义 最 优 预 测 式 
平方 误差 损失 L(e)=e El y|x) 
绝对 误差 损失 L(e)= |el medLy| xj 

(一 we|， 
非 对 称 绝 对 损失 LO 一 人 ) |e| 一 gs[ y|X] 
分 步 损失 Lo 一 | 一 modLy|x] 


(人 1] 又 称 为 预测 元 或 预测 式 。 一 一 译 者 注 
[2」 又 称 为 无 效 人 性 。 一 一 至 者 注 


可 


最 有 名 的 损失 疯 数 是 平方 误差 损失 (squared error loss, 或 称 均 方 损失 ) 男 数 。 
于 是 ,y 的 最 优 预 测量 是 条 件 均 值 图 数 (conditional mean function) EL y|x]。 在 绝 
大 多 数 情 况 下 ,对 Ely|xj 不 施加 任何 结构 ,而 且 可 通过 非 参 数 回 归 ( 参 见 第 9 章 ) 
加 以 估计 。 在 许多 情况 下 ,ELy|xj] 的 模型 是 设 定好 的 ,满足 ELy|xj] 二 g(x, 8), 其 
中 ,g(*) 表 示 已 设 定 也 数 ,而 B 表示 逢 要 估计 的 有 限 维 参 数 同 量 。 最 优 巴 测 是 >》 二 
g(x，[) ,其 中 ,6B 表 示 求 样本 损失 最 小 值 的 选择 : 


2 Le) 一 De 一 Sy — g(xX, BO))° 
i 二 1 1 一 ] 7 =- ] 


损失 郴 数 是 残 差 平 方 之 和 ,所 以 可 通过 非 线 性 最 小 二 乘 ( 人 参见 5. 8 节 ) 进 行 佑 计 。 
如 果 把 条 件 均 值 函 数 g(*) 限 定 成 关于 x 与 8 是 线性 的 ,因此 ELyixj 二 x 6 ,那么 
最 优 预 测量 为 》 一 x 司 ,其 中 , 表示 4.4 节 将 要 详 述 的 普通 最 小 二 乘法 估计 量 。 

若 损 失 函 数 是 绝对 误差 损失 (absolute error loss) , 则 最 优 预 测量 是 条 件 中 位 数 
(conditional median), 记 为 medl y|xj|。 如 果 和 条件 中 位 数 困 数 是 线性 的 ,因而 
med[ ylx] 一 x 6 ,那么 最 优 预测 量 是 放 =x G, 其 中 ,9 表示 求 盖 ,| > 一 %G | 最 小 值 
的 最 小 绝对 离 差 秆 计量 。4. 6 节 将 阐述 这 个 佑 计量。 

平方 误差 损失 上 国 数 是 对 称 的 ,绝对 误差 损 失 国 数 也 是 对 称 的 ,不 管 预测 误 老 的 
方向 如 何 , 就 给 定量 值 的 预测 误差 而 言 , 均 可 利用 相同 的 惩罚 (penalty)。 相 反 , 非 
对 称 绝 对 误差 损失 (asymmetric absolute error loss) 对 过 度 预 测 施 加 惩罚 
(1 一 ca) |e| ,而 对 过 低 预 测 施 加 不 同 的 惩罚 cje| 。 非 对 称 参 数 a 是 设 定 的 。 当 a 一 
0.5 时 , 它 位 于 区 间 (0, 1) 之 间 且 是 对 称 的 ;然而 , 当 a 接近 0 或 1 时 ,就 增 大 了 非 
对 称 性 。 可 以 证 明 ,最 优 预 测量 是 条 件 分 位 数 (conditional quantile) , 记 为 g,[ y|xj; 
一 种 特殊 情况 是 , 当 a 二 0.5 时 为 条 件 中 位 数 。4. 6 市 将 定义 条 件 分 位 数 ,并 有 旦 阐述 
分 位 数 回 归 | 凯 恩 克 和 巴西 特 (Koenker and Bassett，1978) |。 

表 4. 1 给 出 的 最 后 一 个 损失 函数 是 阶 跃 损失 (step loss) , 它 把 损失 直接 建立 在 
预测 误差 的 符号 基础 上 ,而 不 管 其 量 值 如 何 。 最 优 预 测 值 是 条 件 众 数 , 记 为 
modLy|xj。 这 就 提供 了 众 数 回归 的 动机 [ 李 (Lee，1989) ]。 

极 大 似 然 估计 并 没有 如 此 简单 地 进入 本 三 的 预测 框架 。 然 而 , 它 能 被 给 也 以 
预测 密度 和 最 小 化 库 尔 贝 克 一 利 伯 勒 信息 的 形式 对 期 望 损失 的 解释 。 

所 表述 的 结果 蕴含 着 ,经济 计量 学 家 对 从 数据 (y，x) 中 估计 预测 级 数 必 须 依 
据 损 失 消 数 来 选择 预测 也 数 感 兴趣 。 运 用 流行 的 线性 回归 至 少 隐 舍 地 表明 , 决 素 
者 拥有 一 个 二 次 损失 户 数 ,并 认为 条 件 均 值 孙 数 是 线性 的 。 然 而 ,一 旦 设 定 其 他 三 
个 种 损失 函数 之 一 ,那么 最 优 预 测量 也 将 建立 在 该 种 类 型 的 基础 上 。 在 实际 应 用 
中 ,并 没有 明显 的 理由 去 偏爱 哪个 特定 的 损失 消 数 ，。 

回归 经 常用 于 对 数据 的 概括 归纳 ,而 不 是 为 了 特定 预测 本 身 。 于 是 , 当 可 选择 
的 估计 量 可 以 提供 关于 估计 灵敏 度 的 有 用 信息 时 ,考察 一 系列 佑 计量 是 有 盘 的 。 
曼 斯 基 (Manski，1988a，1991) 曾 指出 ,二 次 误差 损失 函数 与 绝对 误差 损失 函数 都 
是 凸 的 。 如 果 y|x 的 条 件 分 布 是 对 称 的 ,那么 条 件 均 值 与 中 位 数 估 计量 两 者 均 是 
一 致 的 ,而 且 可 以 认为 ,它们 是 相当 接近 的 。 此 外 ,如 果 人 们 要 避免 天 于 y|x 的 分 
布 假设 ,那么 可 供 选 择 的 估计 量 方面 的 差异 提供 了 一 种 认识 数据 分 布 的 途径 。 
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= dh 


4. 2.3 线性 预测 


在 平方 误差 损失 下 ,最 优 预 测 值 是 条 件 均 值 ELy|xj。 如 果 这 个 条 件 均值 关于 
x 是 线性 的 ,因而 E[y|xj] 二 x 6B ,那么 参数 8 具有 结构 解释 或 者 因果 解释 ,通过 
OLS 得 到 的 8 的 一 致 估计 ,蕴含 着 ELy|xj] 二 x 8 的 一 致 估计 。 这 允许 关于 回归 元 
的 变动 对 条 件 均 值 的 效应 ,进行 有 意义 的 政策 分 析 。 

然而 ,车 条 件 均值 关于 x 是 非 线 性 的 ,因而 E[y|xj 关 x 6B , 则 OLS 的 结构 解释 
就 会 消失 。 然 而 ,在 平方 误差 损失 下 ,把 8 解释 成 最 优 线性 预测 量 , 仍 然 是 可 行 的 。 
一 旦 求 期 望 损失 EEL(y 一 x8)?] 关于 6 的 导数 ,可 得 到 一 阶 条件 一 2E[x(y 一 x 3)]= 
0, 因 此 ,最 优 线性 预测 量 是 8 二 (ELxx ]) “1ELxyj], 与 样本 的 OLS 估计 量 类 似 。 

通 芝 ,我们 专门 研究 带 有 截 距 项 的 模型 。 在 对 记号 进行 变动 后 ,我 们 把 x 定 
义 成 排除 截 距 的 回归 元 ,并 用 a 十 x 代替 x 86。 关于 a 与 y 的 一 阶 条 件 是 
一 2E[wj 二 0 与 一 2E[xuj] 二 0, 其 中 ,wu 二 y 一 (a 十 x )。 这 些 条 件 理 含 着 E[uj] 二 0 
上 且 Cov[ x,u | 一 0。 经 过 求解 ,得 出 ， 


Y=—=(V[Lx]) 'CovL x,y J (4. 3) 
a 一 ELyj 一 ELx ]7 


例如 ,参见 苞 德 伯 格 (Goldberger，1991, 第 52 页 )。 
从 式 (4. 3) 推 导 得 知 ,应 该 很 明显 ,对 于 数据 (>y，x) ,我 们 总 能 把 线性 回归 模型 
写成 : 


yy 一 a 十 X' my 十 z (4. 4) 


其 中 ,参数 a 与 y 都 已 在 式 (4. 3) 中 定义 ,而 误差 项 x 满足 ELzj=0 和 CovL xz 一 0。 

因此 ,在 平方 误差 损失 下 ,总 是 可 以 给 出 线性 回归 模型 作为 最 优 线性 预测 (best 
linear prediction) 或 线性 投影 的 非 续 构 或 简化 式 解释 。 然 而 ,因为 条 件 均 值 关 于 x 
是 线性 的 ,因此 EE[y|xj 二 a 十 x ,要 求 假设 E[u|xj 一 0, 并 且 有 EL[Luj]= 二 0 和 
Cov| x,u |=0, 

这 种 差异 具有 实践 上 的 重要 意义 。 例 如 , 若 ELulxj 二 0, 因 而 ELy|xj 一 ac 十 x >， 
” 则 最 小 二 乘 (LS) 估 计量 7 的 概率 极限 是 7y ,而 不 管 LS 估计 量 是 加 权 的 还 是 未 加 
权 的 ,也 不 管 样本 是 通过 简单 随机 抽样 还 是 通过 外 生 分 层 抽样 而 得 到 。 然 而 ,如 果 
E[y|xj 关 a 十 x ,那么 这 些 不 同 的 LS 估计 量 可 能 具有 不 同 的 概率 极限 。 这 种 事 
例 将 在 24. 3 节 进 一 步 讨论 。 

OLS 的 结构 性 解释 ,需要 在 给 定 回归 元 时 误差 项 的 条 件 均值 等 于 0。 


4.3 例子 :党 教育 回报 


在 劳动 经 济 学 中 ,重要 的 线性 回归 应 用 涉及 测算 教育 对 工资 或 薪水 的 影响 。 
一 个 典型 的 受 教 育 回 报 (returns to schooling) 模 型 设 定 : 


lIn tw; —as; 二 Xz 二 wi, 2 一 AN (4. D ) 


rm 


其 中 ,w 表示 小 时 工资 或 年 薪 ,s 表示 所 完成 的 受 教育 年 数 ,xs 表示 控制 变量 , 壁 如 
工作 经 验 . 性 别 或 家 庭 背景 等 。 下 标 i 代表 样本 中 的 第 i 个 人 。 由 于 因 变 量 是 工资 
对 数 , 所 以 模型 是 一 个 对 数 线 性 模型 ,系数 a 测算 了 与 多 受 一 年 教育 相 联系 的 薪水 
的 比例 变化 。 

这 个 模型 中 经 常 使 用 的 估计 方法 是 普通 最 小 二 乘法 。 在 实际 应 用 中 ,对 ln w 
变换 确保 了 误差 大 致 上 是 同方 差 的 ,但 是 ,最 好 仍然 如 同 4. 4 节 所 述 的 那样 ,去 获 
得 异 方差 一 致 标准 误差 。 如 果 关 注 内 容 为 分 布 问题 ,比如 下 四 分 位 的 特性 ,那么 还 
可 通过 分 位 数 回 归 进 行 估 计 ( 参 见 4.6 节 )。 

回归 (4. 5) 可 立即 以 描述 方式 得 到 应 用 。 例 如 ,如 果 & 一 0. 10, 一 旦 xs 中 包括 
的 全 部 因素 得 到 控制 ,那么 受 一 年 教育 就 会 有 10% 的 薪水 变化 。 如 同 本 例 一 样 ， 
重要 的 是 , 洪 加 最 后 一 项 限定 时 ,由 于 xx 包括 另外 可 能 影响 薪水 的 控制 因素 ,譬如 
收入 影响 ,估计 量 a 通常 变 得 较 小 。 

政策 上 关注 的 内 容 在 于 ,确定 受 教育 方面 的 外 生变 化 对 薪水 的 影响 。 然 而 , 受 
教育 并 不 是 随机 指派 的 ,相反 , 它 依赖 于 个 体 者 所 做 出 的 选择 。 人 力 资 本 理论 认 
为 , 受 教育 是 个 体 者 自身 投资 ,而 a 被 解释 成 对 人 力 资 本 回报 的 测算 。 于 是 ,回归 
(4. 5) 是 单个 内 生变 量 jn w 对 另 一 个 变量 * 的 回归 ,因而 它 不 能 测算 出 * 外 生变 动 
的 因 采 影响 。 此 处 的 条 件 均 值 函 数 并 不 具有 因果 意义 ,因为 它 是 以 受 教育 作为 内 
生 因 素 为 条 件 的 。 实 际 上 ,除非 我 们 能 证 明 ,s 本 身 是 一 些 变量 的 函数 ,而 在 这 些 变 
量 中 ,至 少 有 一 个 变量 可 以 独立 于 而 变化 ,否则 ,把 a 看 成 因果 参数 , 它 所 蕴含 的 
内 容 并 不 清楚 。 

这 种 带 有 个 体 可 观测 数据 的 内 生 回 归 元 ,遍及 微观 经 济 计 量 学 分 析 之 中 。 巾 
4.4 市 给 出 的 线性 回归 模型 的 标准 假设 为 :回归 元 均 是 外 生 的 。 内 生 回 归 元 的 后 
来 将 在 4.7 节 考 察 。 控 制 外 生 回 归 元 的 一 种 方法 是 工具 变量 ,这 将 在 4. 8 节 详 述 。 
最 近 , 安 格 里 斯 特 和 元 鲁 格 (Angrist and Krueger,1999) 给 出 对 这 类 工资 一 受 教育 
事例 中 控制 内 生变 量 方法 的 广泛 评述 。 这 些 方法 已 在 2. 8 节 给 出 一 个 概述 ,并 且 
将 贯穿 于 全 书 中 ， 


4.4 普通 最 小 二 来 法 


在 线性 回归 模型 中 ,最 简单 的 回归 事例 是 OLS 估计 量 。 

首先 定义 模型 与 估计 量 , 然 后 给 出 对 OLS 估计 量 渐 近 分 布 的 详细 阐述 。 此 处 
的 图 述 假定 ,前 面 的 表述 是 一 种 更 具 引 导 性 的 处 理 。 这 里 做 出 的 模型 假设 ,允许 随 
机 回归 元 和 和 异 方 差 误 差 , 同 时 建议 数据 要 通过 外 生 分 层 抽样 来 得 到 。 

关于 怎样 获得 OLS 仿 计 量 的 异 方 差 性 稳健 标准 误差 的 关键 结果 ,将 在 4. 4.5 
太 给 出 。 


4.4.1 线性 右 慷 左 型 


在 标准 截面 数据 回归 模型 中 ,具有 一 个 纯 量 因 变 量 与 几 个 回归 元 的 六 个 观测 
值 ,该 数据 被 设 定 成 (y,X) ,其 中 ,y 表示 因 变 量 的 观测 值 ,而 X 表示 解释 变量 的 


微观 经 济 计量 学 


i 


矩阵 。 
其 有 可 加 误差 的 一 般 回 归 模 型 可 用 向 量 形式 写成 


y=Ely|X|+u (4. 6) 


其 中 ,ELy|Xj 表 示 在 给 定 关 时 'y 的 条 件 期 望 , 而 表示 不 可 观测 的 随机 误差 或 分 
布 回 量 。 此 方程 式 右边 把 y 分 解 为 两 种 成 分 :一 种 是 确定 性 已 知 的 回归 元 , 另 一 种 
起 因 于 随机 变动 或 噪声 。 我 们 把 ELy|Xj] 看 成 条 件 预 测 函 数 , 它 会 产生 平均 值 ,或 
者 更 正式 地 ,为 给 定 关 时 y 的 期 望 值 。 

当 ELy|X jj 被 设 定 成 XX 的 线性 滴 数 时 ,就 得 到 一 个 线性 回归 模型 (linear regres- 
sion model) 。 关 于 此 模型 的 记号 ,已 在 1.6 节 中 详细 介绍 过 。 以 向 量 形式 表示 第 i 
个 观测 为 : 


y; =X/G 十 u, (4.7) 


其 中 ,x; 表示 K X1 维 回 归 元 向 量 (regressor vector), B 表 示 KK X1 维 参数 向 量 
(parameter vector)。 有 了 时候, 比较 简单 的 是 省 略 下 标 i, 而 把 典型 观测 数据 的 模型 
写成 y 二 x 8 十 x。 在 矩阵 中 NN 个 观测 值 排列 成 行 ,得 出 : 


y 一 XG 十 u (4. 8) 


其 中 ,y 表示 NX1 维 因 变量 向 量 (dependent variable vector) ,表示 NXK 阶 回归 
元 答 阵 (regressor matrix) ,u 表示 NX1 维 误 差 向 晤 (parameter vector) 。 

对 于 线性 回归 模型 来 说 ,方程 (4.7) 和 (4. 8) 是 等 价 的 ,并 且 两 者 可 交换 使 用 ， 
后 者 更 为 简洁 ,经 常 是 最 方便 的 表述 形式 。 

在 这 种 背景 下 ,yy 称 为 因 变 量 (dependent variable) 或 内 生变 量 (endogenous 
variable) ,我 们 希望 用 x 与 x 的 变化 研究 y 的 变动 ;u 称 为 误差 项 (error term) 或 干 
扰 项 (Cdisturbance term) ;xX 称 为 回归 元 (regressors) 、 预 测量 (predictors ) 或 协 变量 
(covariates) 。 如 果 4. 4.6 节 中 的 假设 4 成 立 , 那 么 x 的 所 有 分 量 都 是 外 生变 量 
(exogenous variable) 或 月 恋 量 (indepenqdent variable)。 


4. 4.2 OLS 从 地 量 
OLS 佑 计量 被 定义 为 对 误差 平方 和 


Su = uu= (y— XO8)'(y— XO) (4. 9) 
i 二] 


求 最 小 值 的 估计 量 。 令 式 (4. 9) 关 于 6 的 导数 等 于 0, 并且 求解 8, 得 到 OLS 佑 计量 . 
Bs—=(X XX’y (4. 10) 


更 一 般 的 结果 参见 习题 4. 5, 它 假定 矩阵 XX 的 逆 存 在 。 若 XXX 是 非 满 秩 的 , 则 其 
逆 和 矩阵 可 用 厂 义 逆 来 代 蔡 。 于 是 ,如 果 使 用 平方 误差 损失 ,那么 通过 OLS 估计 , 仍 
然 可 得 出 在 给 定 x 时 y 的 最 优 线性 预测 , 只 是 x 的 各 种 不 同 线性 组 合 将 会 产生 这 
个 最 优 预 测量 。 


4. 4.3 砍 别 


倘若 XX 是 非 奇异 的 ,OLS 估计 量 就 总 是 能 够 计算 出 来 。 更 加 令 人 关注 的 问 
题 是 , Gurs 会 告诉 我 们 有 关 数 据 的 什么 内 容 ? 

为 了 使 条 件 均 值 ELy|Xj 的 识别 成 为 可 能 (参见 2.5 节 ) ,我 们 关注 OLS 估计 
量 的 能 力 。 对 于 线性 模型 ,参数 B 可 识别 的 ,如 果 : 

1，ELy|X| 王 Xi 

2 XB =~XB? ， 当日 仅 当 BY = 6G? , 

第 1 个 条 件 是 ,条 件 均值 被 正确 设 定 , 它 确 保 B8 成 为 内 在 的 关注 内 容 ;第 2 个 
假设 蕴含 着 XX 是 非 奇 异 的 ,这 与 计算 唯一 的 OLS 估计 值 (4. 10) 所 需要 的 条 件 
相同 。 


4. 4.4 OLS 舍 订 最 的 分 布 


我 们 集中 考虑 OLS 估计 量 的 渐 近 性 质 。 次 先 建立 一 致 性 ,然后 通过 对 OLS 
估计 量 重 新 标 度 获 得 其 极限 分 布 。 随 后 ,统计 推 新 要 求 对 佑 计量 方差 矩阵 的 一 致 
估计 。 这 一 分 析 广 泛 利 用 渐 近 理论 ,附录 A 将 概述 渐 近 理论 。 

一 致 性 

估计 量 的 性 质 依赖 于 真实 生成 数据 的 过 程 , 也 就 是 数据 生成 过 程 (data genera- 
ting process，dgp) 。 假 定 dgp 是 y 一 XB 十 u, 因 而 ,模型 (4. 8) 是 正确 设 定 的 。 在 一 
些 地 方 ,尤其 是 在 第 5 章 . 第 6 章 和 附录 A, 把 下 标 0 添加 到 G 上 ,因此 ,dgp 变 成 
y 一 XBo 十 u。 更 多 的 讨论 参见 5. 2. 3 节 。 

于 是 : 

Cs 一 (XX)-IXY 
一 (XXX) !X (XB++u) 
一 (XX)-IXXBG 十 (XXX) Xu 
从 而 ,OLS 估计 量 可 表示 成 : 


Bus=B+(XX) -Xu (4. 11) 
为 了 证 明 一 致 性 ,我 们 重新 把 式 (4. 11) 写 成 : 
Bos=B+N XX IN Xu (4. 12) 


对 等 号 右边 重新 正规 化 的 原因 是 ,如 果 x; 满足 允许 对 xi;x; 应 用 大 数 定理 的 假设 ( 详 
细 内 容 参 见 4. 4.8 节 ),N -1X XX 一 NN 12,%x%; 依 概率 收敛 到 有 限 非 零 算 阵 的 平均 
值 。 进 而 利用 斯 拉 芯 基 (Slutsky) 定 理 ( 定 理 A. 3): 


plim Cs 一 G 十 (plimn NIXX) -ICplimn N -1X U) 
OLS 估计 量 关于 6 是 一 致 的 (也 就 是 说 ,plim Bs 一 B) ,如 果 : 
plim NIXu 一 0 (4. 13) 


若 大 数 定律 应 用 于 平均 数 N71Xu 一 NN ;xu; 上 , 则 使 式 (4. 13) 成 立 的 必要 条 件 
是 Elxu; |=0. 
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极限 分 布 
给 定 一 致 性 , Bs 的 极限 分 布 退化 ,并 且 所 有 质量 位 于 8 处 。 为 了 获得 该 极限 


分 布 ,我们 用 VN 乘 Gos ,因为 这 种 重新 标 度 会 导致 随机 变量 在 标准 模 截 面 数据 的 
假设 下 渐 近 地 具有 非 零 且 有 限 的 方差 。 于 是 , 式 (4. 11) 变 为 . 


VNCGas 一 9) 一 (NIXX)-IN-I2Xu (4. 14) 


一 致 性 的 证 明 假定 ,plim NIXSX 存 在 ,并 且 是 有 限 且 非 零 的 。 我 们 假定 中 心 极 限 
定理 可 应 用 于 N -YX u', 得 到 多 变量 正 态 极 限 分 布 , 具 有 有 限 . 非 奇 异 的 协 方差 矩 
阵 。 和 者 对 极限 正 态 分 布 应 用 乘积 法 则 (定理 A. 17), 则 蕴含 着 式 (4. 14) 右 边 的 乘积 
具有 极限 正 态 分 布 。 详 细 内 容 由 4. 4. 8 节 给 出 。 

这 就 得 出 以 下 命题 , 它 允 许 回归 元 是 随机 的 ,同时 没有 把 模型 误差 限制 成 同方 
差 的 。 

命题 4. 1(OLS 估计 量 分 布 ) ”做 出 下 述 假设 : 

(i) dgp 是 模型 (4. 8) , 即 y 一 X3 十 ui; 

(ii) 对 于 不 同 的 i, 数据 是 独立 的 ,满足 Elu|lX]= 二 0,ELuu |X] 一 QQ 一 Diag[o2 ] ; 

(iii) 矩阵 X 满 秩 的 ,因而 XGO 一 XBC , 当 且 仅 当 GD 一 Ge ; 

(1v) KXK 阶 矩阵 


N NN 
Mx = plim NIXX 一 plim NA > xx 一 lim >) ECx,x’] (4. 15) 
;二 ] i 一 1 


存在 ,而 且 是 有 限 非 奇异 的 。 
(Vv) 开 X1 维 向 量 NU2Xu 一 NT wu 全 N[0. Mxex] 
其 中 : 


N ~N 
Mxox = plim N77X uu X = plim 入 人 >， u: XiX; — lim Ni 2, EL xx | 
;一 | 一] 


(4.16) 
则 由 式 (4. 10) 定 义 的 OLS 估计 量 太 rs 是 关于 G 一 致 的 , 且 ， 
VN(CBns— 8B) SNIO, Mi Myx Ma ] (4. 17) 


假设 (i) 用 于 获得 式 (4. 11)。 假 设 ( 让 确保 ELy|Xj] 二 XB ,同时 使 得 方差 or 具 
有 异 方差 误差 ,这 比 限制 Q 一 ol 的 同方 差 不 相 关 的 误差 更 具 一 般 性 。 假 设 ( 记 ) 排 
除了 回归 元 之 间 的 完全 共 线 性 。 假 设 (iv) 导 致 用 N-: 对 式 (4. 12) 与 式 (4. 14) 中 的 
XX 重新 标 度 。 注 意 , 利 用 大 数 定理 ,有 plim 二 lim E( 参 见 附录 4. 3 节 )。 

一 致 性 的 根本 条 件 是 式 (4. 13)。 我 们 不 是 直接 假定 这 一 条 件 , 而 是 使 用 更 强 
的 假设 Cv) , 它 是 获得 式 (4. 17) 所 必需 的 。 倘 车 N -Xu 具有 极限 分 布 ,其 均值 为 
零 日 方差 有 限 , 乘 以 N-' 得 出 依 概 率 收敛 到 0 的 随机 变量 ,因此 ,正如 人 们 所 期 望 
的 , 式 (4.13) 成 立 。 关 于 wi 与 % 的 更 原始 假设 ,确保 (iv) 与 (v) 得 到 满足 ,这 些 由 
4. 4.6 节 给 出 ,而 正式 证 明 则 放 在 4. 4. 8 节 。 


渐 近 分 布 
命题 4. 1 给 出 VN( Gos 一 8G) 的 极限 分 布 (iimit distribution ) , 即 ns 的 重新 标 


度 形式 。 许 多 实践 者 更 愿意 看 到 用 [Xs 分 布 直 接 写 成 的 渐 近 结果 ,在 此 情况 下 ,这 
种 分 布 称 为 渐 近 分 布 (asymptotic distribution) 。 这 种 渐 近 分 布 应 用 于 大 样本 (large 


sample) , 意味 着 样本 足够 大 到 使 极限 分 布 得 到 良好 近似 ,但 是 没有 大 到 使 万/s-> 8， 
进而 它 的 渐 近 分 布 变 成 退化 的 。 这 方面 讨论 放 在 附录 A. 6. 4 中 ， 
渐 近 分 布 由 式 (4. 17) 除 以 WwWN ,并 且 加 上 6 获得 。 这 就 得 出 渐 近 分 布 (asymp- 


totic distribution ) : 
Bus~NL[LB,N My Mxox Mai | (4. 18) 


其 中 ,符号 一 表示 “在 渐 近 形式 上 分 布 为 "。 式 (4. 18) 中 的 方差 矩阵 称 为 Bs 的 渐 
近 方 差 矩阵 (asymptotic variance matrix) ,并 用 V[ Bs |] 表示。 更 简单 的 记号 是 在 
对 Mxx 与 Mxox 的 定义 中 省 略 极 限 与 期 望 , 从 而 请 近 分 布 记 为 : 


Bs~N[LB,(XX) 'X QX(XX) (4 19) 


而 VL Bs | 定义 成 式 (4. 19) 中 的 方差 矩阵 。 

在 后 面 一 些 章节 中 ,我 们 钙 使 用 式 (4. 18) 又 使 用 式 (4. 19) 来 表述 渐 近 分 布 。 
使 用 它们 是 为 了 便于 表述 。 统 计 推 断 的 正式 渐 近 结果 建立 在 极限 分 布 而 不 是 渐 近 
分 布 的 基础 上 。 

为 了 具体 推导 , 式 (4. 17) 与 式 (4. 18) 中 的 矩阵 Mo 与 Mxox 都 要 用 一 致 估计 
Max 与 Mxox 代替。 于 是 ,Gois 的 估计 渐 近 方差 矩阵 (estimate asymptotic variance 
matrix) 是 ， 

V[ Gas] 王 和 -1IMSL Mxox MRI (4. 20) 
这 个 估计 量 称 为 三 明治 估计 (sandwich estimate) ,Mxox 夹 在 Ma 与 Ma 中间。 
4.4.5 OLS 的 异 方 差 稳 健 标 准 误差 


在 式 (4. 20) 中 ,对 Mx 的 明显 选择 应 该 是 NIX'X。 对 式 (4. 16) 定 义 的 Mxox 
进行 估计 ,依赖 于 对 误差 项 所 做 出 的 假设 。 
,其 中 ,a 随 i 而 变化 。 怀 特 (White，1980a) 建 议 利 用 Mxoex 二 Ni?xixi ,这 
种 估计 需要 由 4. 4. 8 节 给 出 的 额外 假设 。 

一 旦 把 估计 值 Mxx 与 Mxx 加 以 结合 ,并 进行 简化 ,就 得 到 估计 渐 近 方差 矩阵 
的 估计 值 : 


V[ Bs| = (XX) 'X QX(X XY (4. 21) 
~N | ~N ~N | 
= (Px) >) xX (2 Xx’) 
;一 1 ;一 ] 1 一] 
其 中 ,9 王 Diag[ 让] ,而 六 一 六 一 G 表 示 OLS 残 差 。 归 功 于 怀特 (White，1980a) 的 


这 个 估计 值 , 称 为 OLS 估计 量 的 渐 近 方差 矩阵 的 弄 方差 一 致 (heteroskedasticity- 
consistent) 估计 值 , 它 所 产生 的 标准 误差 称 为 异 方差 稳健 标准 误差 (heteroskedas- 
ticity-robust standard error) , 或 者 ,更 简单 地 称 为 稳健 标准 误差 (Crobust standard 
error) 。 即 使 去 对 关于 oi 不 是 一 致 的 ,也 提供 了 VL Bus] 的 一 致 估计 。 

在 引 论 中 , 误差 被 限制 为 同方 差 的 (homoskedastic)。 于 是 ,QQ 一 工 因而 
X DX 一 cX X, 从 而 Mox 一 o2M。 式 (4. 17) 中 的 极限 分 布 方差 矩阵 简化 成 
o” Mxx ,并 且 许 多 计算 机 软件 包 有 时 均 使 用 所 谓 的 默认 OLS 方差 估计 值 : 


V[ Bs |=s: (XX)! (4. 22) 


其 中 ,ss 一 (N 一 K) 12),&i， 

建立 在 式 (4. 22) 而 不 是 式 (4. 21) 基 础 上 的 推断 是 无 效 的 ,除非 误差 是 同方 差 
是 不 相关 的 。 通 常 , 当 误差 是 异 方差 时 , 横 截面 数据 经 常 出 现 此 种 情况 ,错误 使 用 
式 (4. 22) 能 引起 高 估 真 实 标准 误差 或 低估 真实 标准 误差 。 

在 实际 应 用 中 ,利用 (CN 一 开 ) 而 不 是 用 N 去 除 ,就 可 计算 Mxox ,这 类 似 于 同方 
差 情 况 下 用 ? 去 除 而 得 到 一 致 估计 值 。 那 么 , 式 (4. 21) 中 的 V[ As] 要 用 
N/(N 一 K) 去 乘 。 就 异 方差 误差 而 言 ,对 此 自由 度 的 调整 并 不 存在 理论 上 的 基础 ， 
但 是 ,一 些 模拟 人 研究 却 提 供 了 支持 [参见 麦 金 农 和 怀特 (Mackinnon and White， 
1985) 、 明 和 欧文 (Long and Ervin, 2000) ]。 

在 任何 可 能 的 情况 下 ,微观 经 济 计量 学 分 析 都 要 利用 稳健 标准 误差 。 这 种 误 
差 对 弄 方 差 性 而 言 是 稳健 的 。 防 范 其 他 错误 设 定 同样 是 有 把 握 的 。 特 别 地 , 当 数 
据 被 聚集 时 ,标准 误差 应 是 稳健 的 ;参见 21. 2. 3 节 与 24. 5 节 。 


4. 4.6 截面 效 据 回力 的 假设 


命题 4. 1 是 极 具 一 般 性 的 定理 , 它 依 赖 于 关于 NIXX 和 -Xu 的 假设 。 
在 实际 应 用 中 ,这 些 假设 可 通过 对 x;x; 与 xu 的 平均 值 应 用 大 数 定理 以 及 中 心 极 
限定 理 得 到 验证 。 这 些 反 过 来 需要 观测 值 x; 与 误差 zx 是 如 何 生成 的 假设 ,以 及 随 
后 的 式 (4.7) 中 所 定义 的 yw 是 如 何 生 成 的 。 这 些 假设 汇总 起 来 , 称 为 数据 生成 过 
程 假设 。 

一 个 简单 的 教学 例子 由 习题 4. 4 给 出 。 

我 们 在 这 一 阶段 的 目标 是 做 出 适合 于 许多 横 截 面 数据 应 用 背景 的 假设 。 一 些 
假设 曾经 由 怀特 (White，1980a) 做 出 ,还 有 违背 引 论 课程 中 的 那 三 个 重要 假设 。 
首先 ,回归 元 可 以 是 随机 的 (假设 1 与 假设 3) ,因此 ,做 出 关于 误差 项 的 假设 是 以 回 
归 元 为 条 件 的 。 其 次 ,误差 的 条 件 方差 对 于 不 同 观测 值 来 说 ,可 以 是 变化 的 (假设 
5)。 最 后 ,误差 不 再 被 限制 成 正 态 分 布 的 。 

这 些 假设 是 : 

1. 数据 (y;，x;) 对 于 不 同 :来 说 是 独立 的 ,上 且 不 是 同 分 布 的 (inid) 。 

2. 模型 是 正确 设 定 的 ,因此 ,有 : 
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3， 回 归 元 向 量 x; 可 能 是 随机 的 ,具有 有 限 二 阶 矩 。 男 外 ,对 于 某 个 SG>0 以 及 
所 有 的 jk 二 1,…,K, 有 EL|zxjyxa1'™] 寺 co。 同时 , 式 (4. 15) 定 义 的 和 矩阵 Myax 存 
在 , 它 是 一 个 有 限 的 正定 和 矩阵, 秩 为 K 。 在 分 析 样 本 时 ,X 的 秩 也 为 K。 

4. 误差 具有 和 零 均 值 ,并 以 回归 元 为 条 件 : 


El wu,|x, |==0 
$5. 误差 以 回归 元 为 条 件 , 是 异 方 差 的 ,满足 : 


oO—=Elw |x, | (4. 23) 
Q—=ELuu |X|=Diaglo’ | 


其 中 ,@ 表示 NXN 阶 有 限 的 正定 矩阵 。 同 时 ,对 于 某 个 6 二 0, 有 EL |wi | 天? 天 co。 

6. 由 式 (4. 16) 定 义 的 矩阵 Mxex 存 在 , 它 是 秩 为 KK 的 有 限 正定 窍 阵 , 对 于 不 同 
i ,Mxox 二 plim N 7 1?xiX 具 有 独立 性 。 同 样 地 ,对 于 某 个 S>0 以 及 所 有 j、 上 二 
1,…,K, 有 Ell|uzxiral)'’ |< oo, 


4. 4. 7 假充 序 注 


为 了 完整 起 见 ,我 们 在 下 一 市 证 明 这 些 重要 结果 之 前 ,对 每 一 个 假设 提供 详细 
讨论 。 

分 层 随 机 抽样 

假设 1 常常 是 针对 横 截 面 数 据 以 隐 性 方式 提出 的 。 在 这 里 ,我 们 以 明确 方式 
提出 。 它 把 数据 (y;，x;) 限 制 为 对 于 不 同 ;是 独立 的 ,但 是 允许 分 布 随 着 :不同 而 
不 同 。 许 多 微观 经 济 计量 数据 集合 均 来 自分 层 随机 抽样 (stratified random sanr 
pling, 参 见 3. 2 节 )。 于 是 ,总 体 被 分 成 一 些 层 , 然 后 从 每 一 层 内 做 随机 抽取 ,但 是 ， 
某 些 层 作 为 inid 的 而 非 iid 的 抽样 (y;，x;) ,结果 被 过 度 抽 取 。 相 反 ,如果 这 些 数据 
来 自 简单 随机 抽样 (simple random sampling) ,那么 数据 (yw ， xX;) 就 是 iid 的 ,这 作为 
inid 的 特例 是 一 种 较 强 的 假设 。 许 多 引 论 课程 均 假定 ,回归 元 在 重复 抽样 中 是 同 
定 的 (fixed in repeated samples)。 于 是 ,数据 (y;,， xX) 是 inid 的 ,因为 唯一 的 y 是 
随机 的 , 它 依赖 于 x 的 值 。 固 定 回 归 元 假设 极 少 适用 于 微观 经 济 计 量 数 据 , 此 种 
数据 通常 是 可 观测 的 数据 。 相 反 , 它 可 用 于 实验 数据 ,x 表示 处 理 水 平 。 

这 些 关于 (y;,， x;) 分 布 的 各 种 不 同 假 设 , 会 影响 到 用 大 数 定 律 和 中 心 极限 定理 
获得 OLS 估计 量 的 渐 近 性 质 。 注 意 到 ,即使 (> ，x ) 是 iid 的 ,给 定 %% 时 ,yi 不 是 
11d 的 ;例如 ,El y:; [x; | 二 x;B 随 xi 而 变化 。 

假设 1 排除 了 大 多 数 时 间 序 列 数据 ,因为 这 些 数据 对 于 不 同 观 测 值 是 相关 的 。 
如 果 抽 样 方 案 包 括 聚 集 观测 值 ,那么 会 违背 假设 1。 在 这 种 情况 下 , 倘 硅 假设 2 一 
假设 4 成立,OLS 估计 量 仍然 是 一 致 的 ,但 是 ,通常 它 具 有 不 同 于 本 章 所 述 的 方差 
和 矩阵。 

正确 设 定 模型 

假设 2 看 起 来 非常 明显 ,因为 它 在 推导 OLS 估计 量 时 作为 根本 性 因素 。 然 
而 ,由 于 BB 二 (XX) 1X'y 是 关于 y 的 函数 ,从 而 它 的 性 质 依赖 于 y。 

如 果 假 设 2 成立, 那么 假定 回归 模型 关于 x 是 线性 的 而 不 是 非 线 性 的 ,同时 ， 


微观 经 济 计量 学 


i 


回归 中 没有 省 略 变量 Comitted variables) ,并 且 假 定 回 归 元 不 存在 测量 误差 ( meas- 
urement error) , 因为 用 于 计算 8 的 回归 元 x 与 dgp 中 的 回归 元 是 一 样 的 。 再 者 , 参 
数 8 对 不 间 个 体 而 言 是 相同 的 ,这 就 排除 了 随机 参数 模型 。 

如 果 假 设 2 得 不 到 满足 ,那么 OLS 只 可 以 被 解释 成 一 个 最 优 线 性 预测 量 , 参 
见 4. 2. 3 节 。 

随机 回归 元 

假设 3 允许 回归 元 可 以 为 随机 回归 元 (stochastic regressor) , 当 使 用 调查 数据 
而 不 是 实验 数据 时 ,经 常 是 这 种 情况 。 可 以 假定 ,在 极限 形式 上 ,样本 二 阶 窍 矩阵 
是 常数 且 为 非 奇 异 的 。 

若 回 归 元 是 iid 的 ,正如 在 简单 随机 抽样 下 所 做 出 的 假设 ,Ma 二 ELxx ], 并 且 
假设 3 被 简化 为 二 阶 矩 存在 的 假设 。 如 果 回 归 元 是 随机 的 且 inid 的 ,如 同 在 分 层 
随机 抽样 的 情况 下 ,我 们 就 需要 更 强 的 假设 3, 这 个 假设 允许 应 用 马尔 可 夫 LLN 
来 获得 plim N 一 XX。 如 果 回 归 元 在 重复 抽样 中 是 固定 的 , 即 引 论 课 程 中 做 出 稍 
欠 满 意 的 普遍 假设 ,那么 Mo 一 lim NIXX, 同 时 假设 3 变 成 这 种 极限 存在 的 
假设 。 

弱 外 生 回 归 元 

假设 4 的 零 条 件 均值 误差 是 至 关 重 要 的 ,因为 一 旦 它 与 假设 2 结合 起 来 ,就 总 
含 着 ELy|Xj] 一 XB, 因 此 ,条 件 均值 实际 上 是 XG。 

假设 ELu|xj] 二 0 蕴含 着 CovLx, uj 二 0, 因 而 误差 与 回归 元 是 不 相关 的 。 接 下 
来 ,由 期 望 迭 代 定 理 可 得 出 ,Cov| x, 2 |] 一下 | xx 一 ELXIEIz 且 ELxlxj= 王 0, 殉 含 着 
ELxuj 二 0 以 及 ELu] 二 0。 比 较 弱 的 假设 CovLx, wj 二 0 就 可 以 满足 OLS 一 致 性 ， 
然而 ,无 偏 的 OLS 则 需要 比较 强 的 假设 ELu|xj 二 0 。 

假设 4 的 经 济 意 义 是 ,误差 项 表述 了 所 有 被 假定 成 与 XX 不 相关 的 外 生 因素 ,并 
日 一 般 来 说 它们 对 y 具有 零 影响 。 这 是 一 个 重要 假设 ,在 2. 3 节 称 为 能 外 生 假 设 。 
在 本 质 上 ,这 意味 着 关于 X 变量 的 数据 生成 过 程 知识 ,对 BC 的 估计 并 没有 贡献 什么 
有 用 的 信息 。 当 假设 不 能 被 满足 时 ,K 回归 元 中 的 至 少 一 个 被 称 为 与 y 是 联合 相 
关 的 (jointiy dependent) ,或 简称 为 内 生 的 (endogenous)。 回 归 元 与 误差 相关 的 一 
般 性 术语 是 内 生性 (endogeneity) 或 内 生 回 归 元 (endogenous regressor) ,其 中 ,术语 
“内 生 ” 意 味 着 由 系统 内 的 因素 引起 。 正 如 我 们 在 4. 7 节 证 明 的 ,对 弱 外 生性 的 违 
背 会 导致 非 一 致 估计 量 。 存 在 许多 方法 违背 弱 外 生性 ,但 是 ,最 普 过 的 一 种 方法 
是 ,x 中 的 变量 是 选择 变量 或 决策 变量 ,该 变量 在 较 大 模型 中 与 y 相关 。 一 旦 忽 锡 
这 些 其 他 的 关系 ,同时 对 x; 进行 研究 ,就 好 像 被 随机 分 配给 观测 值 i, 从 而 与 z& 
不 相关 ,这 样 做 将 得 到 非 一 般 的 结果 。 内 生 抽 样 (endogenous sample) 已 经 由 假设 4 
排除 了 。 然 后 ,如 果 数 据 是 由 分 层 随机 抽样 收集 起 来 的 ,那么 它 必定 是 外 生 分 层 抽 
样 (exogenous stratified) 。 

条 件 异 方差 误差 

假定 独立 回归 误差 (independent regression error) 与 回归 元 是 不 相关 的 ,这 是 
假设 1 假设 2 以 及 假设 4 的 结果 。 引 论 课 程 通常 关注 把 误差 限制 成 同方 差 的 ,满足 
齐 次 或 常 值 方 差 , 在 此 情况 下 ,对 于 所 有 的 i, 有 一 。 于 是 ,误差 服从 iid (0, 0)， 
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称 为 球面 误差 (spherical error) ,因为 Q 二 @ 1 

假设 5 着 代 了 一 个 条 件 异 方差 回归 误差 (conditional heteroskedastic regression 
errors) 假 设 ,其 中 , 异 方差 意味 着 异 质 性 方差 或 不 同方 差 。 这 个 假设 可 用 二 阶 算 
ELx |xj 二 0 来 陈述 ,但 是 由 假设 4,ELu|xj 二 0, 所 以 它 等 于 方差 VLu|x]。 这 种 更 
一 般 的 异 方差 误差 的 假设 ,是 由 于 它 在 实证 上 经 常用 于 横 截面 回归 而 产生 的 。 进 
一 此 ,放松 同方 差 性 假设 的 代价 并 不 高 ,因为 即使 异 方 差 性 的 函数 形式 是 未 知 的 ， 
获得 OLS 佑 计量 的 有 效 标准 误差 也 是 可 能 的 。 

使 用 条 件 异 方差 术语 源 于 下 述 原因 。 即 使 (yw ， xx ) 是 iid 的 ,如 同 在 简单 随机 
抽样 情况 下 ,一 旦 我 们 以 到 为 条 件 , 其 条 件 均值 与 条 件 方差 都 会 随 着 x 而 变化 。 
类 似 地 ,在 简单 随机 抽样 下 ,误差 一 yy 一 %B 是 iid 的 ,因此 ,它们 是 无 条 件 同方 差 
的 。 一 旦 我 们 以 x; 为 条 件 , 并 且 考 虑 以 % 为 条 件 的 &; 分 布 ,就 允许 这 个 条 件 的 方 
差 随 x; 而 变化 。 

NW2X 的 极限 方差 矩阵 

为 了 获得 N “Xu 的 极限 方差 矩阵 ,就 需要 假设 6。 如 果 回 归 元 与 误差 是 独 
立 的 ,这 就 是 一 个 比 假设 4 更 强 的 假设 ,那么 假设 5 即 EL|w; 9]<c 和 假设 3 即 
E| | xx | 一 ce , 列 含 着 假设 6 的 条 件 即 EL | UXT ] 1 |<o0 o 

我 们 故意 没有 做 出 第 7 个 假设 :误差 u 是 以 XX 为 条 件 的 正 态 分 布 。 为 了 获得 
OLS 估计 量 的 精确 小 样本 分 布 ,就 需要 壁 如 正 态 性 的 假设 。 然 而 ,本 书 中 自 始 至 
终 关 注 渐 近 方 法 ,因为 微观 经 济 计量 学 中 使 用 的 估计 量 极 少 利 用 精确 的 小 样本 分 
布 皆 果 ,进而 不 骨 需 要 正 态 假设 。 


4. 4.8 OLS 估计 量 推 肠 


这 里 ,我 们 既 曾 述 OLS 估计 量 的 小 样本 分 布 以 及 极限 分 布 ,又 在 假设 1 一 假设 
6 的 条 件 下 ,验证 OLS 估计 量 的 方差 矩阵 的 怀特 估计 量 。 

小 样本 分 布 

在 假设 1 一 假设 4 下 ,参数 8 是 可 识别 的 ,从 而 了 Ly|X]= 王 XB, 并且 X 的 秩 为 K。 

小 样本 中 ,在 假设 1 一 假设 4 下 ,OLS 估计 量 是 无 偏 的 ,其 方差 矩阵 很 容易 在 
给 定 假 设 5 时 获得 。 要 获得 这 些 结果 ,可 以 利用 期 望 迭 代 定 理 , 首 先 对 以 X 为 条 件 
的 ua 取 期 望 , 然 后 取 无 条 件 期 望 。 于 是 ,由 式 (4. 11) 知 : 


EL Ens] 王 BT 十 Exo[CXX)-IX'u ] (4. 24) 
一 B 十 Ex[ExLCXXD)-IX alX]] 
一 G 十 Ex[L(XX)-IX ExLulX]] 
=pB 
利用 期 望 迭代 定理 (定理 A. 23), 并 已 知 假设 1 与 假设 4, 这些 一 起 推导 出 
ELu|X] 二 0。 类 似 地 ,已 知 假设 5, 由 式 (4. 11) 得 到 : 
VE Brsl=Ex[ XX) XN XCXX) (4. 25) 


其 中 ,ELauu |X] 一 下 ,并 且 我 们 使 用 定理 A. 23, 可 知 : 
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和 


Vxul gC(X, 0) |=ExL VuxLgC(X, ow | | Vx[ EuxLg(X, vu) | 


当 EuxECX XI) 一 Xu 一 0, 即 第 二 项 为 零 时 ,得 到 简化 式 。 

因此 , 若 ELulX]=0, 则 OLS 估计 量 是 无 偏 的 (unbiased) 。 这 个 有 价值 的 性 质 
通常 不 能 扩展 到 非 线 性 估计 量 上 。 大 多 数 非 线性 估计 量 , 比如 非 线 性 最 小 二 乘 舍 
计量 ,都 是 有 偏 的 ,并 且 甚 至 有 一 些 线性 估计 量 , 例如 工具 变量 佑 计量 ,也 是 有 候 
的 。OLS 估计 量 是 非 有 效 的 (inefficient) , 因为 其 方差 在 线性 无 偶 估 计量 中 并 不 是 
最 小 的 方差 矩阵 ,除非 Q 二 221。 尽管 OLS 的 有 效 性 损失 不 一 定 很 大 ,但 是 ,OLS 
的 非 有 效 性 却 提供 了 进一步 寻找 更 有 效 估计 量 辟 如 广义 最 小 二 乘法 的 动机 。 在 以 
X 为 条 件 误 差 的 其 他 正 态 性 假设 下 ,微观 经 济 计量 学 应 用 中 通常 不 做 出 该 假设 ， 
OLS 估计 量 则 是 以 义 为 条 件 正 态 分 布 的 。 

一 致 性 

由 假设 3, 因 为 plim NIXX 一 Me ,所 以 plim (NIXX) ' 一 Mxx 。 于 是 ,一 
致 性 需要 的 条 件 (4. 13) 得 到 满足 。 一旦 把 大 数 定律 应 用 于 N “1X uu 二 NN 之， xiu;， 
若 ELxiu;j] 二 0, 则 它 依 概率 收敛 于 0, 从 而 这 个 条 件 被 建立 起 来 。 给 定 假设 1 与 假 
设 2,xu; 是 inid 的 ,同时 假设 1 一 假设 5 允许 使 用 马尔 可 夫 LLN (定理 A. 9)。 如 
果 假 设 1 被 简化 成 (y;, x;) 为 iid 的 ,那么 xu; 是 iid 的 ,并 且 假 设 1 一 假设 4 允许 使 
用 较 简 单 的 柯 尔 莫 哥 洛 夫 (Kolmogorov)LLN( 定 理 A. 8)。 

极限 分 布 

由 假设 3 知 ,plim CN-IXX) -一 Me 。 关 键 在 于 通过 利用 中 心 极限 定理 获得 
N22X0 二 NN xiui 的 极限 分 布 。 已 知 假设 1 与 假设 2,xiu; 是 inid 的 ,并 且 
假设 1 一 假设 6 允许 使 用 李 雅 普 诺 夫 CLT( 定 理 A. 15)。 如 果 假 设 1 被 加 强 成 
(y;， Xi) 为 iid 的 ,那么 xu; 是 iid 的 ,并 且 假 设 1 一 假设 5 允许 使 用 较 简 单 的 林 德 但 
格 一 利 维 (Lindeberg-Levy) CLT( 定 理 A. 14) 。 

这 就 得 出 : 

Xu ND, Mu (4. 26) 

其 中 ,Mxox 一 plim N 1X uu 半 一 plim N 二 Xixi 独立 于 i 一 量 E, ,x [uixixX; |] 二 
EE [EL lx jxxi] 以 及 二 ELw? |xij, 应 用 大 数 定律 得 出 ,Mxox 一 limNN ”Xx 
3),E, [o?xxf]。 由 此 可 得 ,Mxox 二 plim NELX PRX] ,其 中 ,一 DiaglLo: ,并 且 期 
望 值 只 与 X 有 关 , 而 不 是 与 X 和 都 有 关 。 

此 处 的 阐述 均 假 定 , 对 于 不 同 的 ; 具有 独立 性 。 更 一 般 地 ,我 们 允许 观测 值 相 
关 。 于 是 ,Mxox 一 plim N 2 Za 并且 吕 的 第 ; 行 . 第 7 列 元 素 是 cz 一 
Cov[Lwu;，w;]。 这 种 复杂 情况 将 在 5. 8 节 的 对 非 线性 LS 估计 量 研究 中 加 以 处 理 。 

异 方差 性 稳健 的 标准 误差 

我 们 考察 对 Mxox 进行 一 致 估计 的 关键 步骤 。 从 最 初 的 Mox 王 plimn 六 Xx 


SN yxx' 定 义 开始 ,我 们 用 去 二 yy 一 x 人 5 代替 ui, 其 中 ,由 于 太仓 8, 所 以 在 渐 近 形 
式 上 有 记 二 ww 。 这 就 得 出 一 致 估计 量 : 


N 
Mxox 一 > Nx.x’ 一 NX OX (4. 27) 
;一 1 


其 中 , @2 二 Diag [站 ]。 对 于 正 的 常数 SG、A 以 及 j,k 二 1,…, K, 附 加 假设 
E[|z2zxzalits]<<A 是 需要 的 ,因为 训 %;Xx/ 二 (wi 一 Xx (B 一 B))?xixi 包 括 x%; 的 四 次 
虹 [ 参见 怀特 (White，1980a) |。 

注意 到 ,Q 并 没有 收敛 到 N XN 阶 矩 阵 Q, 因 为 存在 NN 个 方差 o? 需要 加 以 估 
计 , 从 表面 上 看 ,在 没有 额外 结构 的 条 件 下 ,这 是 不 可 能 完成 的 。 但 是 ,所 需要 的 全 部 
内 容 是 ，N 1X QX 收 伍 到 KXK 阶 和 矩阵 ,plim NIXQX 王 NIplimn 20;02XXi。 这 
比较 容易 得 到 ,因为 回归 元 KK 的 个 数 是 固定 的 。 为 了 理解 怀特 估计 量 ,考察 只 有 
一 个 截 距 日 具有 蜡 方 差 误差 的 y; 二 8 十 u; 模型 的 OLS 佑 计量。 使 用 我 们 的 记号 ， 
可 以 证 明 ,8 二 ,Myx 一 plim N11 二 1, 并 且 Mxox 二 plim N 1,ELw], 其 中 ， 
hi—=yi—B,。 Mxaox 的 一 个 明显 估计 量 是 Mxox=N >; 。 为 了 获得 这 个 估计 量 的 


概率 极限 ,考察 N-! 站 ww? 就 足够 ,因为 给 定 6 三 8 时 ,有 交 一 uw 人 0。 如 果 大 数 定律 能 
用 于 这 个 平均 值 ,收敛 到 它 的 期 望 值 极限 ,那么 plim NSw? 二 plim N-! 5,E[w]= 
Mxox 。 艾 克 (Eicker，1967) 给 出 这 个 事例 的 正式 条 件 。 


4.5 ”加权 最 小 二 乘法 


如 果 需 要 使 用 稳健 标准 误差 ,那么 提高 有 效 性 通常 是 可 能 的 。 例 如 ,如 来 出 现 
异 方差 ,那么 可 行 广义 最 小 二 乘法 (GLS) 估 计量 就 比 OLS 估计 量 更 有 效 。 

在 本 节 中 ,我 们 将 介绍 可 行 GLS 估计 量 ,此 估计 量 对 误差 项 的 方差 做 出 更 强 
的 分 布 假设 。 不 过 ,正如 OLS 情况 一 样 ,可 能 获得 可 行 GLS 佑 计量 的 标准 误差 对 
于 误差 方差 错误 设 定 而 言 ,该 估计 量 是 稳定 的 。 

在 微观 经 济 计量 学 中 ,许多 研究 并 没有 利用 GLS 的 淤 在 有 效 性 优势 ,这 是 由 
于 方便 性 以 及 有 效 性 提高 相对 很 小 。 相 反 , 普遍 使 用 稍 欠 有 效 的 加 权 最 小 二 乘法 ， 
尤其 是 OLS, 它 具有 对 标准 误差 的 稳健 估计 。 


4.5.1 GLS 和 可 行 GLS 


由 引 论 课程 中 并 述 的 高 斯 一 马尔 可 夫 理 论 可 知 ,如 果 线 性 回归 模型 误差 是 独 
立 有 日 同方 差 的 ,那么 OLS 估计 量 是 线性 无 偏 估 计量 中 有 效 的 全 计量 。 

然而 ,我 们 假定 误差 方差 矩阵 Q 关 oc21。 若 是 已 知 的 且 非 奇异 的 , 则 我 们 用 
Q 12 乘 以 线性 回归 模型 (4. 8) ,其 中 ,QQ 一 Q, 得 到 : 


人 2y 一 CQ XGO 二 QQ tu 
经 过 一 些 代 数 运 算 ,得 出 VIQru ] 二 E[(Q uC Yu) |X 一 I。 因 此 ,在 这 
种 转换 模型 中 ,误差 是 零 均 值 . 不 相关 且 同 方差 的 。 因 而 ,通过 QQ ?XX 对 QQ '?y 的 


OLS 回归 ,有 效 地 估计 出 8。 
这 一 推导 得 出 广义 最 小 二 乘 估 计量 (generalized least-squares estimator) : 


微观 经 济 计量 学 


Bas=(XQ'X) XIy (4. 28) 


GLS 估计 量 并 不 能 直接 实施 ,因为 在 实际 应 用 中 ,Q 是 未 知 的 。 相 反 ,我 们 设 
定 人 二 (YY ), 其 中 ,表示 有 限 维 参数 向 量 , 获 得 7 的 一 致 佑 计量 7 并 且 建 立 
9 一 9( 了 )。 例 如 ,如 果 误 差 是 异 方差 的 ,那么 设 定 Viwu|xj] 二 exp(z'Y ) ,其 中 ,z 表 
示 X 的 子 集 , 同 时 使 用 指数 郴 数 来 确保 正方 差 。 然 后 ,7 可 以 通过 OLS 残 差 平方 
让 一 (y 一 XGOos)2 对 exp(Cz7y ) 的 非 线性 最 小 二 乘法 回归 (参见 5. 8 节 ) 得 到 一 致 估 
计 。 此 估计 值 可 用 来 代替 式 (4. 28) 中 的 Q 。 注 意 到 ,我 们 不 能 用 QDiag[ 如 ] 来 
代替 式 (4. 28) 中 的 @@, 因 为 这 会 产生 非 一 致 的 估计 量 ( 参 见 5. 8. 6 节 )。 

可 行 广义 最 小 二 乘 (FGLS) 估 计量 [feasible generalized least-squares (FGLS) 
estimator | 是 、 


Gas 一 (XIX)X GO Ly (4. 29 ) 


如 果 假 设 1 至 假设 6 满足, 并且 QCY) 是 正确 设 定 的 (下 面 将 会 放松 这 个 强 假 设 )， 
同时 了 关于 y 是 一 致 的 ,那么 可 以 证 明 ， 


<^ d 1 _ 
VvNICGs 一 9) 一 人 ML0，Cplimn NIXGD 'X) | (4. 30) 


FGLS 估计 量 与 GLS 估计 量 有 相同 的 极限 方差 矩阵 ,从 而 是 二 阶 和 矩 有 效 的 。 实 施 
中 ,用 式 (4. 30) 中 的 吕 代 蔡 9。 

可 以 证 明 ,GLS 估计 量 最 小 化 um-u, 参 见习 题 4. 5, 如 果 误 差 是 异 方差 的 且 
不 相关 的 ,那么 wwgQriu 可 简化 成 二, xi /a?。 提供 GLS 的 动机 是 求 出 8 的 有 效 估 
计 。 根 据 4. 2 节 对 损失 函数 与 最 优 预 测 的 讨论 ,就 异 方 差 误差 而 言 ,损失 肾 数 是 
Le) 一 ez/o2。 与 具有 Le) 一 e 的 OLS 相 比 ,GLS 损失 函数 对 关于 具有 大 条 件 误 
差 方 差 的 观测 值 预测 误差 施加 相对 较 小 的 惩 记 。 


4. 5.2 加 权 最 小 二 和 慰 滁 


式 (4. 30) 的 结果 假定 对 误差 方差 矩阵 Q(xy) 做 出 了 正确 设 定 。 然 而 , 若 RCry) 
被 错误 设 定 , 则 FGLS 估计 量 仍 然 是 一 致 的 ,但 是 , 式 (4. 30) 给 出 一 个 错误 的 方差 。 
幸运 的 是 ,即使 Q(x ) 被 错误 设 定 , 仍 然 可 以 得 到 GLS 估计 量 方差 的 一 个 稳健 估 
计量 。 

特定 地 ,定义 于 = 二 E(x) 为 实用 方差 矩阵 (working variance matrix) , 这 不 必 等 
于 真正 的 方差 矩阵 QQ 一 ELuu |X]。 构 造 一 个 估计 量 一 EC( 池 ), 其 中 ,人 表示 的 
估计 值 。 然 后 ,使 用 带 有 加 权 和 矩阵 五 ! 的 加 权 最 小 二 乘法 。 

这 就 获得 加 权 最 小 二 乘法 (WLS) 估 计量 [weight least-squares (WLS) estimator ] : 

Bus=(XE 'X) :XE 'y (4. 31) 

那么 ,统计 推断 在 没有 假设 一 0 的 情况 下 就 可 进行 ,此 处 假设 瑟 一 兄 是 真实 误差 
项 的 方差 失 阵 。 在 统计 学 文献 中 ,这 个 方法 被 称 为 实用 和 矩阵 方法 ,我 们 称 之 为 加 权 
最 小 二 乘法 。 但 是 注意 到 ,其 他 一 些 学 者 却 用 加 权 最 小 二 乘法 意 指 人 ”处 于 对 和 角 
线 时 的 GLS 或 FGLS。 这 里 ,并 没有 加 权 和 矩阵 允 “二 的 假设 。 


本 


对 由 4. 4. 5 节 给 出 的 OLS 进行 类 似 的 代数 计算 ,可 得 到 估计 渐 近 方差 矩阵 : 
VL Bis] 一 (XIX) 一 IIX -105IXCX !X)-! (4. 32) 
其 中 ,外 使 得 : 
plim NIX -ID 1IX 一 plimn NIX ZIDZE-IX 
在 异 方差 情况 下 ,@ 王 Diag[a2] ,其 中 ,好 一 一 罗 /Bwis。 
对 于 大 方差 误差 ,基本 方法 是 选择 异 方 差 性 的 简单 模型 ,例如 ,误差 方差 只 依 
赖 于 一 个 或 两 个 关键 回归 元 。 例 如 ,在 作为 受 教育 与 其 他 一 些 变量 的 函数 的 工资 
水 平 的 线性 回归 模型 中 , 异 方差 性 可 能 被 建 模 成 唯一 受 教育 的 函数 。 假 定 由 这 个 
模型 得 出 允 一 Diag[6;]。 然 后 ,由 y;/6; 对 xz;/6; 的 OLS 回归 (没有 常 值 选项 ) 得 出 
Bms;, 同 时 可 以 证 明 , 来 自 此 回归 的 怀特 稳健 标准 误差 等 于 建立 在 式 (4. 32) 基 础 上 
的 怀特 稳健 标准 误差 。 
当 存 在 不 止 一 个 复杂 因素 时 ,加 权 最 小 二 乘法 或 者 实用 和 抢 阵 方法 是 特别 方便 
的 。 例 如 ,第 21 章 的 随机 效应 面板 数据 模型 中 ,误差 可 被 处 理 成 针对 给 定 个 体 是 、 
与 时 间 相 关 的 ,并 且 是 异 方差 的 。 人 们 使 用 随机 效应 估计 量 , 此 估计 量 只 能 控制 第 
一 个 复杂 因素 , 男 一 方面 要 计算 此 估计 量 的 异 方差 一 致 标准 误差 。 
各 种 最 小 二 乘 估 计量 已 总 结 在 表 4. 2 中， 
表 4.2 最 小 二 乘 估计 量 和 它们 的 渐 近 方差 


估计 量 * 定 义 佑 计量 渐 近 方差 

OLS B=(XX) IX’'y (XX) I'X QAXCX XT 

FGLS B=(XO XI)-IXQO Iy (XQ IX 一 | 

WLS B=(XE LIX)-1X ZE 'y (XE 'X) XE QF XX FX 


a 估计 量 是 具有 误差 条 件 方差 矩阵 只 的 线性 回归 模型 估计 量 。 对 FGLS 来 说 ,假设 0 关于 0 是 一 致 
的 。 对 OLS 与 WLS 来 说 ,8 的 异 方差 稳健 方差 使 用 外 ,等 于 一 个 对 角 具 有 平方 残 差 的 对 角 和 矩阵 。 


4. 5. 3 LS 和 登 健 奈 准 误差 的 焉 例 


举 一 个 稳健 标准 误差 估计 量 的 事例 ,考虑 下 面 关 于 具有 乘法 异 质 性 dgp 的 斜 
座 系 数 最 小 二 乘 佑 计 的 标准 误差 的 估计 : 
y 王 1 十 1 Xx 十 x 


UXE 


其 中 , 纯 量 回归 元 x 一 ML0, 25j], 而 ee 一 NL0, 4j]。 

误差 是 条 件 蜡 方差 的 ,因为 VLiulxj 一 VLxe|xj 二 x?Vle|lxj 二 4x?, 它 依赖 于 
回归 元 x。 给 定 +, e 是 独立 的 ,此 处 的 dgp 是 特定 的 ,这 不 同 于 无 条 件 方差 ,其 中 ， 
Viu|=V|i xe |=E[ (xe)’ |— (Elxre |])*=Elx’ Efe |=V[xiVle|=100, 

OLS 估计 量 的 标准 误差 ,应 该 利用 蜡 方 差 一 致 的 或 稳健 方差 估计 (4. 21) 来 进 
行 计算 。 由 于 OLS 不 是 完全 有 效 的 ,所 以 WLS 可 能 促使 有 效 性 提高 。GLS 将 肯 


微观 经 济 计 是 学 


定 促 使 有 效 性 提高 。 并 且 , 在 这 个 模拟 数据 的 例子 中 ,我 门 知道 ,V[u|zxj]=4z?。 
所 有 合计 方法 均 得 出 截 距 与 斜率 参数 的 一 致 估计 。 

来 目 容 量 为 100 的 样本 生成 数据 ,各 种 不 同 最 小 二 乘法 估计 和 与 之 有 关 的 标 
准 话 差 都 已 由 表 4. 3 给 出 。 我 们 考虑 斜率 系数 。 


表 4.3 最 小 二 乘法 带 有 条 件 异 方差 误差 的 例子 * 





(LS WLS GLS 

常数 2. 213 1. 060 0. 996 
(0. 823) 《0. 150) 《0. 007) 
[| 0. 820 [0. 051 [0. 006 

X 0O. 979 0. 957 0. 952 
(0. 178) (0. 190) (0. 209) 
[0. 275] [ 0. 232 | | 0. 208] 

及 0. 230 0. 205 0. 174 


a 对 容量 为 100 的 样本 生成 的 数据 。OILS、WLS 以 及 GLS 全 部 是 一 致 的 ,但 OLS 与 WLS 却 是 非常 有 
效 的 。 给 出 两 种 不 同 的 标准 误差 : 贺 括 号 中 的 是 假设 同方 差 误 差 的 默认 标准 误差 ; 方 括号 中 的 是 异 方差 稳健 
标准 误差 。 数 据 生 成 过 程 在 下 一 节 给 出 。 


OLS 笠 率 系数 估计 值 是 0. 979。 两 个 标准 误差 估计 值 均 已 报告 出 来 ,利用 式 
(4. 21) 获 得 的 正确 异 方 差 性 稳健 标准 误差 为 0. 275, 它 比 利 用 ss CX'X) ! 计 算出 的 
不 正确 估计 值 0. 177 要 大 很 多 。 标 准 误差 估计 中 如 此 大 的 差异 ,可 以 导致 截然 不 
同 的 统计 推断 结论 。 一 般 而 言 ,标准 误差 的 偏 倚 可 以 朝向 任何 方向 。 例 如 ,在 理论 
上 我 们 可 以 证 明 ,稳健 标准 误差 的 极限 比 不 正确 的 极限 大 Vv3 倍 。 特 别 地 ,对 于 这 个 
dgp 以 及 在 样本 量 为 N 的 情况 下 ,斜率 系数 的 OLS 估计 量 的 正确 与 不 正确 的 标准 
误差 分 别 收 伍 到 w12/N 与 V4/N。 

举 一 个 WLS 估计 量 的 事例 ,假定 w= 二 Vizxle 而 不 是 zx 王 ze, 因此,VLd]= 
oz|。 一 且 用 yy 除 以 截 距 且 用 x 除 以 vx ,WLS 估计 量 能 够 利用 OLS 回归 计算 
出 。 由 于 这 是 关于 异 方差 误差 的 错误 模型 ,所 以 斜率 系数 的 正确 标准 误差 是 利用 
式 (4. 32) 计 算出 的 稳健 估计 值 0. 232。 

一 旦 利用 > 除 以 截 距 , 晶 x 除 以 |x|, 可 通过 OLS 回归 计算 出 这 个 dgp 的 
GLS 佑 计量 ,因为 变换 误差 是 同方 差 的 。 斜 率 系 数 的 通常 标准 误差 与 稳健 标准 误 
差 大 小 差不多 (0. 209 与 0. 208)。 这 是 我 们 所 希望 的 结果 ,两 个 值 在 渐 近 形式 上 都 
是 正确 的 ,因为 此 处 GLS 估计 量 使 用 了 异 方差 性 正确 模型 。 理 论 上 可 以 证 明 , 对 
于 这 个 dgp 来 说 ,斜率 系数 的 GLS 估计 值 的 标准 误差 收敛 到 V4/N，。 

正如 入 们 所 预料 的 ,OLS 与 WLS 都 不 如 GLS 有 效 , 它 们 的 斜率 系数 标准 误 
差 关系 为 0. 275 半 0. 232>0. 208 。 

这 个 事例 的 设置 是 在 横 截面 数据 估计 理论 中 经 常 使 用 的 标准 设置 。y 是 随机 
的 随机 变量 ,x 也 是 随机 的 随机 变量 。(y;, x;) 对 于 不 同 i 来 说 是 独立 的 ,日 为 同 分 
布 , 如 同 随机 抽样 时 的 情况 。 然 而 ，yi |x; 的 条 件 分 布 对 于 不 同 i 是 不 一 样 的 ,因为 
yi 的 条 件 均 值 与 方差 都 依赖 于 x%。 
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4.6 中 位 数 与 分 位 数 回归 


在 只 有 一 个 截 距 的 模型 中 ,关于 样本 分 布 的 概述 统计 量 , 除 了 样本 均值 之 外 ， 
还 包括 分 位 数 , 辟 如 中 位 数 、 上 四 分 位 数 、 下 四 分 位 数 和 百 分 位 数 。 

在 回归 背景 下 ,类 似 地 ,我们 对 条 件 分 位 数 感 兴趣 。 例 如 ,关注 内 容 在 于 ,与 那 
些 党 教育 程度 高 的 工人 相 比 , 受 教育 程度 低 的 工人 薪水 分 布 百 分 位 数 如 何 置 于 更 
小 的 空间 中 。 在 这 个 简单 事例 中 ,人 们 可 以 分 别 计算 受 教育 程度 低 的 工人 与 受 教 
育 程度 高 的 工人 的 情况 。 然 而 ,如 果 存 在 几 个 回归 元 取 几 个 值 的 情况 ,这 种 方法 就 
行 不 通 。 相 反 , 为 了 估计 给 定 x 时 yy 条件 分 布 的 分 位 数 ,就 需要 分 位 数 回 归 。 

由 表 4. 1 知 , 分 位 数 回归 对 应 于 使 用 非 对 称 的 绝对 损失 ,而 中 位 数 回归 作为 特 
殊 情 况 , 则 使 用 绝对 误差 损失 。 这 些 方法 提供 了 对 OLS 而 言 可 供 选 择 的 方法 , 它 
们 都 使 用 误差 平方 的 损失 。 

分 位 数 回 归 方 法 除了 提供 数据 的 更 丰富 特性 ,还 具有 其 他 优点 。 与 最 小 二 乘 
法 回归 相 比 ,中 位 数 回 归 对 离 群 值 而 言 更 加 稳健 。 此 外 ,与 最 小 二 乘法 估计 所 需要 
的 假设 相 比 ,分 位 数 回归 和 估 计量 在 较 弱 的 随机 假设 下 可 以 是 一 致 的 。 重 要 的 事例 
是 曼 斯 基 (Manski1，1975) 关 于 二 值 结果 模型 的 最 大 得 分 估计 量 ( 参 见 14. 6 节 ) ,以 
及 鲍威尔 (Powell，1984) 关 于 删 失 模型 的 删 失 最 小 绝对 偏差 估计 量 ( 参 见 16. 9. 2 
节 )。 

在 转向 样本 分 位 数 估计 之 前 ,我 们 以 对 总 体 分 位 数 给 出 简略 解释 开始 。 
4. 6.1 总 体 分 位 数 

对 于 连续 随机 变量 y 来 说 ,其 总 体 第 g 分 位 数 是 ,使 得 y 以 概率 g 小 于 或 等 
于 js。 因而 有 : 

9 二 PrLy 委 p= F, (pu) 
其 中 ,了 表示 y 的 累积 分 布 图 数 (Ccdf) 。 例如 ,如 果 /LO0. 75 一 3, 那 么 V< 的 概率 等 
于 0.75。 由 此 可 得 : 
上 一 下 《9) 

重要 事例 是 中 位 数 g 二 0. 5、 上 四 分 位 数 gq 二 0.75、 下 四 分 位 数 g 二 0. 25。 对 于 标准 
正 态 分 布 , 有 pos 一 0.0、mos5 一 1 上. 645 以 及 Ao.s75 二 1. 960, 第 1009 个 百 分 位 数 
(percentile) 是 9 分 位 数 。 

对 于 回归 模型 ,以 x 为 条 件 的 y 的 总 体 第 g 个 分 位 数 是 函数 ,使 得 以 x 为 条 件 


的 y 以 概率 gq 小 于 或 等 于 pv(Cz) ,其 概率 是 利用 给 定 x 时 y 的 条 件 分 布 计 算得 到 
的 。 由 此 可 得 : 


ua (x)= Fg) (4. 33) 


其 中 ,FF,, 表 示 给 定 x 时 yy 的 条 件 cdf, 并 且 我 们 没有 表示 此 分 布 的 参数 作用 。 
一 种 深刻 认识 是 ,在 下 述 假设 下 去 推导 分 位 数 函 数 jo (Xx) , 即 假定 dgp 是 含有 
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乘法 异 方差 性 的 线性 模型 : 
y 一 X DB 十 az 
z 一 X Ce Xe 
e~iid [0,0 | 
其 中 ,假定 xa >>0。 于 是 ,以 x 为 条 件 的 y 的 总 体 g 分 位 数 ,就 是 使 得 
g =Pr|y < w(x, Ga) 
=Prlu < (x,B,a)—x0] 
一 Prl es 和 [ux Ge) 一 XGA/xar | 
=F. (L(x,B,0)—xB]/xX a) 


的 那个 晃 数 jw(x,B,a), 其 中 ,我 们 使 用 4 一 y 一 x Be 二 uw/x a 以 及 F 表示 e 的 
cdi 由 此 可 得 ,LuwCxy Ba) 一 XXXa 王 左 (9)， 所 以 有 : 


La (XB, Or ) 一 X 6 十 X ex XP (g) 
=—x' (B+aXF-'(g)) 


因而 ,对 于 含有 乘法 异 方差 性 形式 x=xa xs 的 线性 模型 来 说 ,条 件 分 位 数 关 于 x 
是 线性 的 。 在 同方 差 性 的 特殊 情况 下 ,x'a 等 于 常 值 , 并 且 所 有 条 件 分 位 数 具 有 相 
间 笠 率 , 只 是 它们 的 截 距 不 同 , 截 距 会 随 着 g 增 大 而 变 大 。 

在 更 一 般 的 事例 中 ,分 位 数 函 数 关 于 x 可 能 是 非 线 性 的 ,其 原因 在 于 异 方 差 性 
具有 其 他 形式 ,比如 = 二 h(x,a), 其 中,h(') 关 于 x 是非 线 性 的 ,或 者 因为 回归 忒 数 
本 身 就 具有 非 线 性 形式 g(x,B)。 在 下 一 节 , 对 于 由 式 (4. 34) 给 出 的 分 位 数 回归 损 
失 肾 数 , 标 准 方 法 仍 是 估计 线性 的 分 位 数 函 数 , 然 后 把 它们 解释 成 最 佳 线 性 预 
测量 。 


4.6.2 样本 分 位 激 


对 于 单 变量 随机 变量 y, 获得 样本 分 位 数 估 计 值 的 通常 方法 是 首先 对 样本 加 
以 排序 。 然 后 ,yi 等 于 第 LNgj| 个 最 小 值 ,其 中 ,NN 表示 样本 量 , 而 [No 表示 最 接 
近 Ng 的 最 大 整数 。 例 如 , 符 N=97, 则 下 四 分 位 数 是 第 25 个 观测 值 ,因为 [97 x 
0. 25 | 一 | 24. 25 | 一 25。 

绩 恩 克 和 巴西 特 (Koenker and Bassett，1978 ) 发 现 , 样 本 的 第 co 个 分 位 数 
(sample qth quantile) yi 能 等 价 地 表述 成 


N NN 
Sgly—Bl+ SD dmg ly—8| 
ty. > 1 :3 < 


求 关于 8 的 最 小 值 最 优化 问题 的 解 。 这 一 结论 并 不 明显 。 为 了 获得 某 种 认识 , 考 
察 中 位 数 , 其 中 ,q 一 0.5。 于 是 ,中 位 数 是 二 ;| y; 一 8| 的 最 小 值 。 假 定 在 99 个 观测 
值 的 样本 中 ,第 50 个 最 小 观测 值 等 于 10, 即 中 位 数 ,同时 第 51 个 最 小 观测 值 等 于 
12。 如 果 我 们 令 p= 二 12, 而 不 是 10, 那 么 对 前 面 50 个 有 序 观 测 值 来 说 ,将 增加 2; 而 
对 莉 余 49 个 观测 值 而 言 ,将 减少 2。 因 此 ,与 第 50 个 观测 值 相 比 ,第 51 个 最 小 观 
测 值 是 一 个 较 差 的 选择 。 类 似 地 ,可 以 证 明 , 与 第 50 个 观测 值 相 比 ,第 49 个 最 小 
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观测 值 是 一 个 较 差 的 选择 。 
然后 ,将 目标 函数 推广 到 线性 回归 情况 ,因此 ,第 g 个 分 位 数 回归 佑 计量 
(quantile regression estimator) 8, 为 最 小 化 


QvB) = 2 gl 一 xD 十 2 -Dy—xB| (4.34) 
i:y; xB i:y, EB 
的 B, 值 ,其 中 ,我 们 使 用 6B, 而 不 是 8, 以 便于 用 g 的 各 种 不 同 选取 值 来 估计 6 的 
不 同 值 。 注 意 ,这 是 由 表 4. 1 给 出 的 非 对 称 绝对 损失 函数 ,其 中 ,3 被 限制 成 关于 x 
是 线性 的 ,所 以 e 一 y 一 x B8,。 特 殊 情 况 下 ,g 二 0.5 称 为 中 位 数 回 归 估 计量 (median 
regression estimator) 或 者 最 小 绝对 偏差 估计 量 (least absolute deviations estimator) 。 


4.6.3 分 位 数 回 归 信 计量 的 糙 质 


目标 函数 (4. 34) 是 不 可 微 的 ,因而 不 能 利用 第 10 章 曾 述 的 梯度 最 优化 方法 。 
幸运 的 是 ,能 使 用 线性 规划 分 法 ,而 且 这 些 方法 用 于 相对 快速 计算 应 。 

由 于 记 不 存在 显 式 解 ,所 以 不 能 利用 4. 4 节 中 的 OLS 方法 来 获得 记 的 渐 近 
分 布 。 因 为 目标 函数 是 不 可 微 的 ,同样 需要 对 第 5 章 的 方法 加 以 改进 。 可 以 证 明 ， 


VN(B—B,) SN[0, A-'BA-!] (4. 35) 
[例如 ,参见 布 钦 斯 基 (Buchinsky，1998, 第 85 页 )], 其 中 ， 


N 
A = plim RD) fo CO | x wx (4. 36) 
i =] 
] N 
B = plim AN 2 9(1— gq)xx’ 
i=! 


而 户 (01x) 表 示 误 差 项 wu 一 y 一 xB, 的 条 件 密度 在 ,二 0 处 的 计算 值 。 记 的 方 
差 估计 显得 很 复杂 ,因为 需要 估计 六 (01x) 。 相 反 ,利用 第 11 章 的 成 对 自助 法 , 比 
较 容 易 获得 房 的 标准 误差 。 


4. 0. 4 分 位 数 例 子 


在 这 一 节 , 我 们 实施 条 件 分 位 数 估计 ,同时 将 它 与 利用 OLS 回归 的 通常 的 条 
件 均值 估计 进行 比较 。 应 用 事例 涉及 对 家 庭 每 年 医疗 支出 的 恩格尔 曲线 加 以 估 
计 。 更 具体 地 ,我 们 考察 医疗 支出 的 对 数 与 家 庭 总 收入 对 数 之 间 的 回归 关系 。 该 
回归 产生 医疗 支出 关于 总 支出 常数 (弹性 ) 的 估计 。 

数据 取 自 世界 银行 的 “1997 年 越南 生活 标准 调查 ”。 样 本 由 5 006 个 家 庭 组 
成 ,为 了 允许 采取 自然 对 数 形 式 , 在 省 略 了 16.6% 的 零 支 出 样本 后 ,其 余 的 家 庭 具 
有 正 的 医疗 支出 水 平 。 零 值 能 利用 16. 9. 2 节 中 阐述 的 鲍威尔 关于 删 失 分 位 数 回 
归 方 法 来 处 理 。 为 了 简单 起 见 , 我 们 直接 省 略 零 支出 的 观测 值 。 尤 其 是 在 低 收入 
水 平 上 ,医疗 支出 的 最 大 分 量 是 由 药店 购买 医疗 器 械 构成 的 。 尽 管家 庭 的 几 个 特 
征 变量 是 可 以 利用 的 ,但 是 ,为 了 简单 起 见 ,我 们 只 考察 单一 回归 元 , 即 以 家 庭 总 支 
出 的 对 数 作 为 家 庭 收 入 的 代表 。 
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线性 最 小 二 乘法 回归 得 出 0. 57 这 一 弹性 估计 值 。 通 常 , 这 个 估计 值 意味 着 药 
品 是 “必需 的 ”, 因 而 对 药品 的 需求 是 收入 无 弹性 的 。 这 种 估计 值 并 不 令 人 感到 非 
第 惊讶 ,只 是 我 们 应 该 承认 ,在 各 种 不 同 收入 层面 上 ,弹性 存在 着 相当 大 的 异 质 性 ，。 

正如 遍 恩 克 和 哈 洛克 (Koenker and Hallock，2001) 所 强调 的 ,分 位 数 回 归 是 
研究 这 类 蜡 质 性 的 有 力 工 具 。 我 们 对 式 (4. 34) 求 最 小 值 ,其 中 ,y 表示 医疗 支出 的 
对 数 , 而 xB 二 Bi 十 Bz, 此 处 ,x 表示 家 庭 总 支出 的 对 数 。 对 于 19 个 分 位 数 g== {0. 
05，0. 10,… ,0. 95} 值 都 进行 这 样 的 计算 ,其 中 ,g 二 0.5 为 中 位 数 。 在 每 种 情况 
下 ,标准 误差 可 利用 含有 50 次 重复 抽样 的 自助 法 加 以 估计 。 该 方法 的 结果 已 被 归 
纳 为 图 4. 1 与 图 4. 2， 

图 4. 1 中 画 出 了 取 各 种 不 同 g 值 时 Bs,, 的 斜率 系数 ,以 及 相关 的 95% 置 信和 区 
同 。 图 中 显示 ,弹性 的 分 位 数 估 计 值 是 如 何 随 分 位 数值 而 变化 的 。 弹 性 估计 值 会 
系统 地 随 家 庭 收 入 水 平 而 增 大 :从 g=0.05 时 的 0. 15 增长 到 一 0.85 时 的 0. 80 
这 一 最 大 值 。 同 样 地 ,对 最 小 二 乘法 斜率 估计 值 0. 57 加 以 阐述 , 它 作为 水 平 线 并 
没有 随 分 位 数 而 变化 。 显 然 , 在 较 小 分 位 数 与 较 大 分 位 数 上 的 弹性 估计 值 都 是 在 
统计 上 显著 不 同 的 ,同时 与 OLS 估计 值 相 比 也 在 统计 上 显著 不 同 。 而 OLS 具有 
标准 误差 0.032。 看 起 来 ,总 弹性 估计 值 将 会 依照 基本 收入 分 布 的 变化 而 变化 。 
此 图 支持 了 由 裔 恩 到 和 了 哈 洛克 引述 的 莫 斯 特 蒜 和 图 基 (Mosteller and Tukey， 
1977, 第 236 页 ) 的 发 现 , 即 一 旦 仅仅 关注 于 条 件 均 值 函 数 ,最 小 二 乘法 回归 将 给 
出 因 变 量 与 解释 变量 联合 分 布 的 不 完全 概括 。 


当 分 位 数 变化 时 的 斜率 估计 值 


斜率 与 置信 带 


an pe a na 上 9 50% 笑 信 带 
分 位 数 斜 率 系数 

i 下 DO 置信 带 
OLS 斜率 系数 





0 0.2 0.4 0.6 0.8 ] 
分 位 数 


图 4.1 由 医疗 支出 的 自然 对 数 对 总 支出 自然 对 数 进 行 回归 , 画 出 对 应 于 gq 二 0. 05, 0. 10，.…， 
0. 90，0. 95 的 斜率 系数 的 分 位 数 回 归 估 计 值 ,以 及 相关 的 95% 置 信和 带 。 


图 4.2 将 g 一 0.1.g 一 0.5 和 g 一 0.9 的 三 个 估计 分 位 数 回 归 线 二 Bi, 十 Bo.ox 用 
OLS 回归 线 画 在 一 起 。 没 有 画 出 OLS 回归 , 它 类 似 于 中 位 数 (g 二 0. 5) 回 归 线 。 如 
图 4. 2 所 示 ,中 位 数 回 归 展 成 而 形 。 并 不 令 人 感到 惊 诈 的 是 ,给 定 估计 和 斜率 随 9 而 
增 大 ,正如 图 4. 1 所 证 实 的 。 凯 恩 克 和 巴西 特 (Koenker and Bassett，1982) 曾 提 
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出 , 当 数 据 生成 过 程 (dgp) 为 线性 模型 时 ,将 分 位 数 回 归 作 为 检验 异 方差 误差 的 工 
具 。 咒 这 类 情况 而 言 , 分 位 数 回 归 线 展 成 乌 形 可 被 解释 成 异 方 差 性 存在 的 证 据 。 
万 一 种 解释 和 是, 条件 均值 关于 z 是 线性 的 ,并 且 具 有 递增 的 斜率 ,从 而 导致 分 位 数 
笠 率 系数 随 分 位 数 而 增 大 。 


当 分 位 数 变化 时 的 回归 线 


家 庭 总 支出 的 目 然 对 数 





家 庭 医 疗 支 出 的 自然 对 数 


图 4.2 产 日 医疗 文 出 的 目 然 对 数 对 总 支出 自然 对 数 的 回归 ,关于 dv 一 01. 一 0.5 以 及 g 王 0. 9 
的 分 位 数 回归 估计 线 。 数 据 源 于 1997 年 具有 正 医疗 支出 的 越南 5 006 个 家 庭 数据 。 


有 关 分 位 数 回 归 的 更 详细 解释 ,已 由 布 钦 斯 基 (Buchinsky，1994) 以 及 凯 轧 克 
和 和 哈 洛克 (Koenker and Hallock，2001) 给 出 。 


4.7 模型 错误 设 定 


“模型 错误 设 定 ”术语 在 最 宽泛 的 意义 上 是 指 ,对 数据 生成 过 程 所 做 出 的 一 个 
或 多 个 不 正确 假设 。 错 谋 设 定 可 能 单独 发 生 , 也 可 能 联合 发 生 , 但 是 ,如 果 只 考察 
单个 错误 设 定 的 结果 ,分 析 起 来 就 比较 简单 。 

在 下 面 的 讨论 中 ,我 们 强调 错误 设 定 可 能 导致 最 小 二 乘法 的 非 一 致 性 以 及 所 
关注 系数 识别 性 的 损失 。 然 而 ,最 小 二 习 法 估计 量 可 能 继续 拥有 解释 意义 ,与 正确 
模型 设 定 假设 下 所 预期 的 有 所 不 同 。 具 体 地 讲 , 估 计量 可 能 收敛 到 不 同 于 真实 总 
体 的 参数 上 ,譬如 4.7. 5 节 和 定义 的 伪 真 实 值 (pseudo-true value) 。 

这 里 的 OLS 一 致 性 所 引发 的 问题 与 其 他 模型 的 估计 量 是 相关 的 。 于 是 ,与 
OLS 一 致 性 所 需要 的 那些 假设 相 比 ,此 处 的 一 致 性 需要 更 强 一 些 的 假设 条 件 ,所 
以 在 模型 错误 设 定 下 得 到 的 非 一 臻 性 更 为 第 见 。 


4.7.1 OLS 前 不 一 致 性 


模型 错误 设 定 的 最 严重 后 果 , 是 回归 元 系数 8 的 非 一 致 估计 。 由 4.4 节 知 ,为 
了 证 明 OLS 佑 计量 的 一 致 性 ,需要 两 个 关键 性 条 件 :(1) 数据 生成 过 程 是 y 二 XB 十 
ui (2) 数据 生成 过 程 满足 plim N 'Xu 一 0。 于 是 有 : 
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Bys=B+(N™!'X'X) N iX'u 
全 (4. 37) 
其 中 ,如 果 y 一 XGOG 十 ,那么 第 一 个 等 式 成 立 [参见 式 (4. 12)]j, 而 第 二 个 等 式 通过 使 
用 plim NIX u 二 0 而 得 到 。 
寿 模 型 错误 设 定 ,从 而 导致 关于 y 的 错误 模型 (这 会 违背 第 1 个 条 件 ) ,或 者 导 
致 回归 元 与 误差 项 相关 (这 会 违背 第 2 个 条 件 ), 则 OLS 估计 可 能 是 非 一 致 的 


(inconsistent) 。 


4.7.2 表 数 形式 竺 误 友 外 


在 不 确定 的 维 数 参数 空间 中 ,条 件 均值 函数 的 线性 设 定 只 能 以 Rx 近似 真实 
未 知 条 件 均值 函数 。 即 使 所 选择 的 回归 元 正确 ,也 可 能 出 现 条 件 均值 被 错误 设 定 . 
假定 数据 生成 过 程 具有 非 线性 回归 函数 的 形式 ， 


yy 一 8g(X) 十 了 
其 中 ,没有 使 用 g(Cx) 对 未 知 参 数 的 相依 性 ,同时 假定 ELvixj 一 0。 线性 回归 模型 . 
y 一 X Bu 


是 错误 设 定 的 。 问 题 是 ,即使 数据 生成 过 程 实际 上 是 非 线性 的 ,OLS 佑 计量 能 否 
给 出 任何 有 意义 的 解释 ? 
通常 对 回归 系数 解释 的 方法 是 通过 真实 的 微观 关系 Cmicro relationship) 来 进 
行 的 ,这 里 的 微观 关系 为 : 
ELy |x; |= g(x;) 


在 这 种 情况 下 , Bos 无 法 测算 出 EL[y;|x;] 对 于 x; 变化 的 微小 响应 ,因为 它 没有 收敛 
到 ag(xi)/axi 。 因 此 ,不 可 能 拥有 对 os 的 通常 解释 。 
怀特 (White，1980b) 已 经 证 明 ,OLS 估计 量 收 伍 到 B 值 ,该 值 使 得 均 方 预测 
误差 
E[(g(x)—x BG)’ 


最 小 化 。 因 此 , 若 均 方 预测 误差 用 于 损失 范 数 , 则 由 OLS 得 到 的 预测 是 非 线 性 加 
归 函 数 的 最 佳 线性 预测 量 。 这 种 有 用 的 性 质 已 在 4. 2. 3 节 陈 述 过 ,但 是 ,那里 没有 

概括 地 说 ,如 果真 实 回 归隐 数 是 非 线 性 的 ,那么 对 于 个 体 预 测 来 说 ,OLS 作用 
就 不 大 了 。 就 预测 总 变化 而 言 ,OLS 仍然 是 有 用 的 , 它 给 出 归 因 于 并 变动 而 引起 
的 样本 均值 ELy1lxj 的 变化 [参见 斯 托 克 (Stocker,1982) ]。 然 而 ,微观 经 济 计量 分 
析 通 党 探寻 个 体 层 面 上 有 意义 的 模型 。 

本 书 大 部 分 阐述 关于 很 可 能 正确 设 定 的 线性 模型 的 一 些 其 他 可 供 选 择 的 方 
法 。 例 如 ,第 14 章 对 二 值 结果 的 曾 述 ,能 够 确保 预测 概率 在 0 与 1 之 间 的 模型 设 
定 。 此 外 ,人 们 偏爱 依赖 于 最 小 分 布 假设 的 模型 与 方法 ,因为 它们 被 错误 设 定 的 可 
能 性 很 小 。 


4.7.3 内 生性 


”内 生性 已 经 在 2. 3 节 正 式 定义 过 。 内 生性 的 一 种 宽泛 定义 是 指 , 当 回归 元 与 
误差 项 相关 时 , 则 该 回归 元 是 内 生 的 。 如 果 任 何 一 个 回归 元 都 是 内 生 的 ,那么 通常 
所 有 系数 的 OLS 都 是 非 一 致 的 (除非 外 生 回归 元 与 内 生 回归 元 是 不 相关 的 )。 

内 生性 的 一 些 重 要 事例 包括 联 立 方程 偏 倚 (2. 4 节 )、 省 略 变 量 偏 倚 (4. 7. 4 
太 )、 样 本 选择 偏 倚 (16. 5 节 ) 以 及 测量 误差 偏 倚 (第 26 章 ), 本 书 在 线性 模型 和 非 
线性 模型 的 背景 下 对 这 些 内 容 有 着 广泛 研究 和 应 用 。 当 使 用 横 截 面 观测 数据 时 ， 
极 有 可 能 发 生 内 生性 ,而 且 经 济 学 家 也 非常 关注 此 类 复杂 情况 。 

控制 内 生性 的 相当 一 般 的 方法 是 工具 变量 法 ,这 将 在 4.8 节 .4.9 节 .6.4 节 以 
友 6.5 市 加 以 阐述 。 然 而 , 当 没 有 必需 的 工具 可 以 利用 时 ,这 种 方法 就 不 能 得 到 
应 用 。 

控制 内 生性 的 其 他 方法 已 经 在 2. 8 节 阐 述 过 ,包括 控制 混合 变量 法 ;车 有 重复 
模 截 面 数 据 或 面板 数据 可 以 利用 , 则 运用 差异 中 差分 (参见 第 21 章 ); 若 有 面板 数 
据 可 以 利用 并 且 内 生性 产生 于 时 和 党 值 的 省 略 变 量 , 则 运用 固定 效应 (参见 21.6 
节 ) ,以 及 回归 不 连续 (regression-discontinuity) 设 计 ( 参 见 25. 6 节 )。 


4.7.4 省 有 鄂 变量 


在 引 论 谍 程 中 ,线性 何 归 方程 的 省 略 变量 (omission of a variable) 是 被 经 常 六 
述 的 OLS 非 一 致 性 的 第 一 个 事例 。 这 种 省 略 可 能 来 日 错误 排除 那些 可 以 利用 数 
据 的 变量 ,也 可 能 来 自 排除 那些 不 能 被 直观 观测 的 变量 。 例 如 ,在 工资 (或 者 更 经 
营 的 是 工资 对 数 ) 对 受 教育 的 回归 中 忽略 能 力 ,这 经 常 归 因 于 能 力 综合 测量 的 不 可 
利用 性 。 

设 真 实 dgp 是 : 

y=X DG 十 za 十 (4. 38) 


其 中 ,x 与 x 均 表 示 回 归 元 ,为 了 简单 起 见 , 这 里 ,z 表示 纯 量 回归 元 ,而 v 表示 误差 
项 ,和 是 假 定 wv 与 回归 元 x 及 z 是 不 相关 的 。y 对 x 及 zz 的 OLS 回归 ,将 产生 8 与 a 
的 一 致 参数 估计 值 。 

相反 ,假定 > 只 单独 地 对 x 进行 回归 , 归 因 于 不 可 利用 性 而 省 略 了 z。 于 是 ,za 
项 被 并 入 误差 项 。 佑 计 模 型 是 . 


y=x Ot(zatv) (4. 39) 


其 中 ,误差 项 是 (za 十 v)。 像 以 往 一 样 ,vw 与 x 是 不 相关 的 ,但 是 ,如 果 z 与 x 是 相 

关 的 ,那么 误差 项 (xa 十 v) 将 与 回归 元 x 相关。OLS 估计 量 关 于 8 将 是 非 一 致 的 。 
这 个 模型 有 足够 的 结构 来 决定 非 一 致 性 的 方向 。 一 旦 以 一 种 明显 方式 对 所 有 

观测 值 进行 要 放 , 则 得 到 y 一 蚊 DG 十 zax 十 v。 将 其 代 人 Bas = (XXX)-!'Xy, 得 出 : 


Bas 一 B 二 ON-IXX)-ICONT-IX'z)a 十 (NIX'X)-ICON-IX'V) 


微观 经 济 计量 学 
在 XX 与 v 不 相关 的 通常 假设 下 ,最 后 一 项 概率 极限 为 0; 然而 ,X 与 z 是 相关 的 ,并 
且 有 : 


其 中 : 
9 一 plimL (NIXX) !(N 1X’z)] 


表示 省 略 回 归 元 (2) 对 所 包含 回归 元 (X) 进 行 回归 的 OLS 估计 量 的 概率 极限 . 

这 种 非 一 致 性 称 为 省 略 变 量 偏 倚 (omitted variables bias) ,虽然 各 种 错误 设 定 
在 形式 上 都 会 导致 非 一 致 性 ,但 是 这 一 普遍 术语 可 以 表述 成 :各 种 错误 设 定 导致 偏 
倚 。 只 要 6 隆 0, 也 就 是 说 ,只 要 省 略 变量 与 所 包含 的 回归 元 是 相关 的 ,就 存在 非 一 
致 性 。 通 常 , 非 一 致 性 可 能 是 正 的 ,也 可 能 是 负 的 ,并 且 其 符号 甚至 可 能 与 OLS 系 
数 的 符号 相反 。 

对 于 受 教育 事例 来 说 ,可 以 认为 , 受 教育 与 能 力 之 间 的 相关 系数 为 正 , 所 以 
0 一 0, 进 而 认为 能 力 回 报 也 为 正 , 因 而 a 汪 >0。 由 此 可 得 ,6a 守 0, 因 此 ,在 这 个 事例 
中 ,省 略 变量 偏 倚 是 正 的 。 工 资 仅 对 受 教育 的 OLS 将 会 高 估 教 育 在 工资 的 影响 。 

错误 设 定 的 有 关 形 式 包 含 不 相干 问 归 元 (inelusion of irrelevant regressors ) 。 
例如 ,虽然 数据 生成 过 程 是 更 为 简单 的 y==x 6 十 v, 然 而 ,回归 可 能 是 y 对 x 与 z 
的 回归 。 在 这 种 情况 下 ,可 直接 证 明 ,该 OLS 是 一 致 的 , 却 损失 了 有 效 性 。 

如 条 参数 估计 是 要 给 出 因果 解释 ,就 必须 控制 省 略 变量 偏 倚 。 因 为 太 儿 的 回 
归 元 不 会 有 很 大 的 影响 ,而 太 少 的 回归 元 可 能 导致 非 一 致 性 ,所 以 由 大 数据 集 估计 
的 微观 经 济 计量 学 模型 倾向 于 包括 众多 回归 元 。 如 果 仍 要 阐述 省 略 变量 ,就 需要 
用 到 在 4. 7. 3 区 末尾 处 给 出 的 方法 。 


4.7.5 仿真 实 信 


在 省 略 变量 事例 中 ,最 小 二 乘 估 计量 受 限 于 在 混杂 (confounding) 意 义 下 不 能 
估计 B, 却 可 以 估计 6.6 和 a 的 函数 。 

OLS 估计 量 不 能 用 于 估计 6。 例如 , 它 可 以 测算 回归 元 x 外 生变 化 的 影响 , 例 
如 ,在 保持 包括 能 力 常 值 的 所 有 其 他 回归 元 不 变 时 ， 

然而 ,由 式 (4. 40) 知 , Bis 是 函数 (3 十 Sa) 的 一 致 估计 量 ,而 且 具 有 有 意义 的 解 
释 。B* 一 GT 二 ia 的 OLS 估计 量 As 的 概率 极限 , 称 为 对 应 于 Bs 的 伪 真 实 值 
(pseudo-true value) ,参见 5.7. 1 节 的 正式 定义 。 

进一步 地 ,人 们 能 得 到 Bs 的 分 布 ,即使 它 关 于 6 是非 一 臻 的 。ABs 的 估计 渐 
近 方 差 测 算 了 围绕 (3 十 6a) 的 离 差 ,并 和 且 如 果 式 (4. 38) 中 的 误差 是 同方 差 的 ,那么 
它 可 由 普通 估计 量 璧 如 s:(X'X) -! 来 加 以 估计 。 


4.7.6 参数 多 样 人性 


到 目前 为 止 ,我 们 允许 回归 元 与 误差 项 随 不 同 个 体 而 变化 , 却 把 回归 参数 8 限 
定 为 对 不 同 个 体 而 言 是 相同 的 。 
相反 ,可 以 假定 数据 生成 过 程 是 : 


yi;—=xX ;Tu (4.41) 


现在 允许 随 不 同 个 体 而 变化 。 

随机 系数 模型 (random coefficients model) 或 者 随机 参数 模型 (random param- 
eters model) 均 把 B; 设 定 为 独立 同 分 布 的 ,该 分 布 不 依赖 于 观测 值 x;。 设 B; 的 共 
同 均值 为 9。 此 数据 生成 过 程 可 重新 写成 : 


y=xw B+ (utx; (0;— 8)) 


同时 做 出 足够 多 的 假设 ,以 确保 回归 元 x; 与 误差 项 (wj 十 xi (6B; 一 B)) 是 不 相关 的 。 
因此 ,y 关于 x 的 OLS 回归 元 能 够 一 致 地 估计 出 8, 注 意 , 即 使 是 同方 差 的 , 误 
差 (w; 十 (6B; 一 B)) 也 是 异 方 差 的 。 

对 于 面板 数据 而 言 ,标准 模型 就 是 随机 效应 模型 (参见 21. 7 节 ) ,该 模型 设 截 
距 随 不 同 个 体 而 变化 ,而 斜率 系数 却 不 是 随机 的 。 

对 于 非 线 性 模型 ,类似 结 果 不 一 定 成 立 , 而 随机 参数 模型 因 其 允许 更 丰富 的 参 
数 结构 而 受到 人 们 的 青睐 。 当 个 体 对 x 变化 存在 异 质 性 响应 时 ,随机 参数 模型 是 
一 致 的 。 一 个 重要 事例 是 15. 7 节 的 随机 参数 logit。 

当 个 体 的 回归 参数 6B; 与 可 观测 个 体 特征 有 关 时 ,会 产生 更 严重 的 复杂 性 。 于 
是 ,OLS 估计 能 导致 非 一 致 的 参数 估计 。 一 个 事例 就 是 面板 数据 的 固定 效应 模型 
(参见 21. 6 节 ), 在 该 模型 中 ,y 对 x 的 OLS 估计 是 非 一 致 的 。 在 此 事例 中 ,但 不 是 
在 所 有 这 样 的 事例 中 ,存在 回归 参数 子 集 上 的 可 供 选 择 的 一 致 佑 计量。 


4.8 工 其 变量 


在 微观 经 济 计量 学 中 ,值得 强调 的 重要 复杂 情况 ,是 由 内 生 回 归 元 引起 的 非 一 
致 性 参数 估计 的 可 能 性 。 于 是 ,回归 估计 和 便 仅仅 测算 出 关联 的 数值 大 小 ,而 不 是 起 
因 的 数量 及 方向 ;而 对 于 政策 分 析 来 说 ,这 两 者 都 是 需要 的 。 

然而 ,工具 变量 佑 计量 提 供 了 获得 一 致 参数 估计 的 方法 。 这 种 方法 广泛 地 用 
于 经 济 计量 学 领域 , 却 极 少 用 于 其 他 方面 ,因为 它 的 概念 令 人 感觉 星 汲 难 懂 , 并 且 
很 可 能 被 误 用 。 

我 们 将 详细 加 以 阐述 , 先 定 义工 具 变 量 ,然后 解释 工具 变量 法 如 何在 抽样 背景 
下 起 作用 。 


4.8.1 OLS 前 一 臻 性 


考察 只 有 因 变 量 y 与 单一 回归 元 zx 的 纯 量 回归 模型 。 回 归 分 析 的 目的 是 估计 
条 件 均值 函数 E[y|z]。 为 了 记号 简洁 方便 ,把 没有 截 距 项 的 线性 条 件 均值 模型 设 
定 为 : 


El y|x|=fx (4. 42) 
如 果 因 变量 与 回归 元 变量 都 以 它们 各 目的 平均 偏差 表示 ,那么 没有 截 距 的 模型 就 


微观 经 济 计 量 学 
可 纳入 具有 截 距 的 模型 之 中 。 关 注 内 容 在 于 获得 8 的 一 致 估计 值 ,因为 给 定 x 外 
生变 化 时 ,这 会 提供 条 件 均值 的 变动 。 例 如 ,关注 内 容 可 以 是 由 归于 外 生 原 因 的 受 
教育 增加 而 引起 的 工资 效应 , 璧 如 增 大 学 生 离 校 的 最 低 年 龄 ,这 个 决策 不 是 由 个 体 
选择 决定 的 ， 

OLS 回归 模型 设 定 为 ，; 


y 一 Ar 十 & (4. 43 ) 


其 中 ,u 表示 误差 项 。y 对 工 进行 回归 会 得 到 8 的 OLS 估计 值 8。 

一 些 标准 回归 结果 均 做 出 下 述 假设 :模型 (4. 43) 中 的 回归 元 与 误差 项 是 不 相 
大 的 。 于 是 ,xz 对 yy 的 唯一 效应 是 通过 Bz 项 而 获得 的 直接 效应 。 我 们 拥有 下 面 的 
路 径 分 析 图 : 


/ 
其 中 ,z 与 之 间 不 存在 关联 。 因 而 ,x 与 4 是 y 的 独立 原因 。 
然而 ,在 一 些 情况 下 ,回归 元 与 误差 项 之 间 可 能 存在 关联 。 例 如 ,考察 工资 对 
数 (y) 对 受 教育 年 数 (z) 的 回归 。 误 差 项 wu 包括 了 除 受 教育 决定 工资 之 外 的 所 有 因 
率 , 诸 如 能 力 。 假 定 一 个 人 具有 很 高 的 x 值 ,这 是 由 于 (不 可 观测 的 ) 高 能 力 而 引起 
的 。 因 为 y 王 Bx 十 w, 所 以 会 增加 工资 。 但 是 ,高 能 力也 会 导致 较 大 的 zx, 因 为 对 那 
些 具有 凯 能 力 的 人 而 言 , 所 受 的 教育 可 能 也 较 高 。 于 是 ,更 适宜 的 路 径 分 析 如 下 : 


TT —» VY 


1 7 


其 中 ,zx 与 之 间 现 在 存在 关联 ，。 

Z 与 & 之 间 的 这 种 相关 性 后 果 是 什么 呢 ? 现在 , 较 大 的 zx 对 y 拥有 两 个 效应 。 
由 式 (4. 43) 知 ,一 种 直接 效应 由 Bx 而 产生 , 另 一 种 间接 作用 效应 经 由 而 影响 到 
Z, 这 反 过 来 影响 y。 回 归 的 目的 只 是 估计 第 一 种 效应 ,得 到 8 的 估计 值 。 然 而 ,一 
旦 此 事例 得 出 8p>8, 即 两 种 效应 都 是 正 的 ,OLS 估计 将 会 兼 有 两 种 效应 。 若 利用 
微分 计算 ,我 们 可 得 到 对 > 一 &z 十 x(z) 的 全 微分 : 


GY—p+ 9 (4. 44) 


由 数据 可 得 到 dx/dy 的 信息 ,因而 OLS 估计 出 全 效应 8 十 dx/dy; 而 不 是 单独 的 
8。 因此 ,OLS 估计 量 是 有 侦 的 , 且 关 于 6B 为 非 一 致 的 ,除非 x 与 之 间 不 存在 
关联 。 

对 具有 天 个 回归 元 的 线性 回归 模型 进行 更 正式 研究 ,会 得 到 同样 的 结论 。 由 
4.7. 1 节 知 ,OLS 一 致 性 的 必要 条 件 是 plim N “i1Xu 二 0。 一 致 性 需要 回归 元 在 渐 
近 形 式 上 和 与 误差 项 是 不 相关 的 。 由 式 (4. 37) 知 ,OLS 非 一 致 性 的 数量 大 小 是 
(XKX)-IXu 即 源 自 xx 对 x 回 归 的 OLS 系数 。 这 恰好 是 du/dx 的 OLS 估计 值 ,从 
而 证 实 了 式 (4. 44) 的 直观 结果 。 


4. 8. 2 工具 变量 


OLS 的 非 一 致 性 归 因 于 z 的 内 生性 ,意味 着 z 的 变化 不 仅 与 y 的 变化 有 联 
系 , 而且 与 误差 v 有 联系 。 所 需要 的 内 容 是 可 生成 z 唯一 外 生变 化 的 方法 。 一 种 
明显 的 方法 是 通过 随机 化 实验 ,但 对 绝 大 多 数 经 济 应 用 来 说 ,这 类 实验 成 本 太 高 或 
者 其 至 行 不 通 。 

工具 定义 

一 种 原始 实验 方法 或 者 处 理 方 法 利用 观测 数据 仍然 是 可 行 的 ,倘若 存在 工具 
(instrument)z,z 具有 如 下 性 质 :z 的 变化 与 x 的 变化 有 联系 ,但 并 不 会 引起 y 的 变 
化 (除了 通过 < 的 间接 途径 之 外 ) 。 这 就 产生 下 面 这 个 路 径 图 : 


之 —>» TX > 


t 也 


这 里 ,引入 变量 z,z 在 因果 关系 上 与 x 有 关 而 与 % 无 关 。 还 可 以 是 下 述 情 况 :z 与 
y 是 相关 的 ,但 这 种 相关 性 的 唯一 来 源 是 ,z 与 zx 成 为 相关 的 间接 途径 ,这 反 过 来 决 
定 y。z 作 为 y 模型 中 回归 元 的 更 为 直接 的 途径 被 排除 。 

如 果 ;(1) z 与 误差 项 x 无 关 ; (2) z 与 回归 元 x 相关 ,更 正式 地 ,变量 zx 称 为 纯 
量 回归 模型 y= 一 8x 十 ww 中 关于 回归 元 z 的 工具 (instrument) 或 工具 变量 (instrument 
variables) 。 

第 一 个 假设 排除 工具 = 成 为 关于 yy 模型 的 回归 元 ,然而 ,如 果 > 既 依 赖 于 过 又 
依赖 于 ,而且 y 只 对 xz 进行 回归 ,那么 z 被 并 人 到 误差 之 中 ,从 而 z 与 zx 也 就 相关 
了 。 第 二 个 假设 要 求 工 具 与 作为 工具 的 变量 之 间 存 在 某 种 关联 。 

工具 的 事例 

在 许多 微观 经 济 计量 应 用 中 ,很 难 找到 合理 的 工具 。 此 处 ,我 们 给 出 两 个 
事例 。 

首先 ,假设 我 们 要 估计 外 生 的 市 场 价格 变化 所 引起 的 市 场 需求 响应 。 显 然 , 需 
求 量 依赖 于 价格 ,但 价格 不 是 外 生 的 ,因为 已 知 它们 是 部 分 地 由 市 场 需 求 来 决定 
的 。 一 个 合适 的 价格 工具 是 这 样 的 变量 ,该 变量 与 价格 相关 ,但 又 并 不 直接 影响 需 
求 量 。 一 个 明显 的 备 选 者 就 是 影响 市 场 供给 的 变量 ,因为 这 一 变量 也 影响 价格 ,但 
不 耳 接 决定 需求 。 如 果 对 农产品 进行 建 模 ,那么 一 个 事例 就 是 对 有 利 栽培 条 件 的 
测量 。 倘 徊 有 利 栽 培 的 条 件 不 直接 影响 需求 ,并 且 大 大 得 益 于 正式 的 供给 与 需求 
的 经 济 模型 , 则 此 种 工具 的 选择 是 无 争议 的 。 

其 次 ,假设 我 们 要 估计 有 党 教育 外 生变 化 而 引起 的 收益 。 绝 大 多 数 观 测 数 据 集 
合 均 缺少 对 个 体能 力 的 测量 ,因而 工资 对 受 教育 的 回归 包含 不 可 观测 能 力 的 误差 ， 
进而 与 受 教育 回归 元 相关 。 我 们 需要 找到 一 个 工具 z, 使 其 与 受 教 育 相 关 且 与 能 
力 无 关 , 并 且 更 一 般 地 ,与 误差 项 无 关 , 这 意味 着 工具 不 能 直接 决定 工资 。 

关于 zz 的 一 种 流行 的 备 选 者 是 接近 于 学 院 或 者 大 学 的 程度 [ 卡 德 (Card,， 
1995) ]。 显 然 , 这 满足 第 2 个 和 条件, 例如, 算 离 社 区 学 院 或 者 州立 大 学 较 远 的 人 不 
太 可 能 上 大 学 。 它 很 可 能 满足 第 1 个 条 件 ,虽然 可 以 证 明 ,那些 住所 距离 学 院 很 远 


微观 经 济 计量 学 


的 人 可 能 在 低 工资 劳动 力 市 场 中 ,人 们 需要 估计 y 的 多 元 回归 ,这 和 包括 另外 一些 回 
_ 归 元 ,比如 代表 非 大 都 市 区 域 的 标示 变量 。 

工具 的 第 二 个 备 选 者 是 出 生 月 份 [ 安 格 里 斯 特 和 克 鲁 格 (Angrist and Krue- 
ger,1991) ]。 显 然 , 这 一 工具 满足 第 1 个 条 件 ,因为 没有 理由 认为 ,车 回归 中 包括 
年 龄 的 话 , 出 生 月 份 对 工资 拥有 直接 影响 。 令 人 惊讶 的 是 ,第 2 个 条 件 也 可 能 得 到 
满足 ,因为 在 美国 ,出 生 月 份 决定 最 初 人 学 年 龄 ,一 些 法 律 规定 最 小 离 校 年龄 ,这 反 
过 来 可 能 影响 到 受 教育 年 数 。 邦 德 . 耶 格 和 贝克 (Bound， Jaeger and Baker, 1995) 
对 此 工具 曾 给 出 评论 。 

4. 9 厄 将 详细 讨论 选取 不 适当 工具 的 结果 ， 


4. 8.3 工具 变 最 侍 计 最 


对 于 具有 纯 量 回归 元 xz 与 纯 量 工具 >z 的 回归 ,工具 变量 估计 量 [instrumental 
variables (IV) estimator | 被 定义 为 . 


Brv 一 (zx) !z’y (4. 45 ) 


在 纯 量 回归 元 的 情况 下 ,z、x、y 均 表 示 NX1 维 向 量 。 如 果 z 与 x 相关 ,而 与 误差 
项 不 相关 ,那么 这 个 估计 量 就 给 出 线性 模型 y 一 Br 十 u 斜率 系数 8 的 一 致 估计 。 

人 存在 几 种 方法 推导 式 (4. 45) 。 我 们 提供 一 种 直观 的 推导 ,该 方法 不 同 于 通常 
的 譬如 6. 2. 5 节 阐 述 的 推导 。 

加 到 受 教育 一 工资 的 事例 上 。 假 定 工 具 = 变动 1 个 单位 ,与 之 关联 的 受 教育 
就 多 0. 2 年 ,而 且 年 工资 会 增加 500 美元 。 这 种 工资 上 的 增加 是 = 增 大 导致 受 教 
育 年 数 增加 的 间接 影响 的 后 果 , 这 反 过 来 促使 收入 增多 。 于 是 ,由 此 可 见 , 受 教育 
多 增加 0. 2 年 ,就 会 使 工资 增加 500 美元 ,因此 , 受 教育 多 增加 1 年 ,会 使 工资 增加 
2 500 类 元 (500/0. 2) 。 因 而 ,8 的 原因 估计 值 是 2 500。 利 用 数学 记号 表示 ,我 们 佑 
计 zz/dz 与 dy/dz 的 变化 ,并 计算 出 原因 估计 量 如 下 : 

Brv -4 (4. 46) 
这 种 证 明 原 因 参 数 8 的 方法 是 由 赫 克 曼 (Heckman, 2000, 第 58 页 ) 给 出 的 ;也 可 参 
见 2. 4. 2 节 的 事例 。 

剩 下 的 内 容 是 对 dx/dz 与 dy/dz 进行 一 臻 估计。 估计 dy/dz 的 一 种 显 而 易 
见 的 方法 ,是 通过 y 对 z 的 OLS 回归 进行 估计 ,其 斜率 估计 值 为 (zz) zy。 类 似 地 ， 
通过 工 对 z 的 OLS 回归 ,可 以 估计 4y/dz, 其 斜率 估计 值 为 (zz) :zx。 于 是 : 


和 _ (Zz2) zy / 1 7 
Biv = (72) 7 一 《2 xX) ZYy (4. 47) 
4. 8.4 ” 沃 尔 德 信 计 量 
IV 的 一 个 重要 而 简单 的 事例 ,是 工具 z 作为 一 个 二 值 工具 (binary instrument) 。 
当 zx 二 1 时 ,分 别 用 3 与 五 表示 y 与 x 的 子 样本 均值 ;而 当 z==0 时 ,分 别 用 部 与 
zo 表示 y 与 工 的 子 样本 均值 。 于 是 有 Ay/Az 一 (y1 一 yo) 和 和 AT/Az 王 (Tl 一 Xo), 从 


而 由 式 (4. 46) 得 到 : 


Bwai -2 (4. 48 ) 


过 1] 0 

此 估计 量 被 命名 为 沃 尔 德 估 计量 (Wald estimator) ,或 者 称 为 分 组 估计 量 (grouping 
estimator) 。 

沃 尔 德 佑 计量 还 能 从 公式 (4. 45) 中 获得 。 对 于 没有 截 中 的 模型 来 说 ,变量 是 
以 偏离 其 均值 多 少 而 测量 的 ,因而 zy 一 2; (zi; 一 z) (yi; 一 了 y)。 就 二 值 工具 z 而 言 ， 
这 会 得 出 zy 一 六 (一 3) 二 和 NiNo( 玉 一 和 天)/N, 其 中 ,No 与 Ni 分 别 表示 那些 对 应 
z 一 0 与 xz 一 ] 的 观测 值 个 数 。 该 结果 使 用 了 一 5 二 (No 十 N11)/N 一 (No%o 十 
NF1)/N 一 No(F1 一 丽 )/N。 类 似 地 ,ZzZ x 一 和 Nj No (zi 一 zo)/N。 结合 这 些 结果 ,我 们 可 
通过 式 (4. 45) 推 导出 式 (4. 48)。 

对 于 有 党 教育 工资 事例 ,已 经 假定 我 们 能 定义 出 两 个 组 ,每 一 组 的 隶属 关系 并 不 能 
直接 决定 工资 , 尺 管 它 会 影响 到 受 教 育 水 平 ,进而 间接 影响 到 工资 。 然 后 ,IV 估计 值 
是 两 个 组 的 平均 工资 之 差 被 两 个 组 的 平均 受 教 育 之 差 去除 。 


4. 8.5 样本 检 方 差 与 相关 糙 分 析 
IV 估计 量 还 可 以 用 协 方差 或 相关 性 给 出 解释 。 
对 于 样本 协 方差 ,我 们 直接 从 式 (4. 45) 得 到 : 
~ _ Covlz,y) 
Pr Cov| z,x | 
上 式 中 ,用 Cov| ”表示 样本 协 方 差 。 

对 于 样本 相关 性 ,注意 到 ,模型 (4. 43) 的 OLS 估计 量 能 写成 ps 二 r+, Vyy/ 
VXX, 其 中 ,r, 一 xX y/vV (x x)(y yy) 表示 文 与 y 的 样本 相关 (sample correlation) 系 
数 。 这 就 导致 把 OLS 佑 计量 解释 为 ,z 变动 一 个 标准 差 而 引起 y 变动 了 ~ 标准 
差 。 问 题 是 ,相关 系数 rj, 被 zx 与 之 间 的 相关 性 关系 所 混淆 。 一 种 可 供 选 择 的 方 
法 是 ,通过 用 > 与 y 之 间 的 相关 系数 除 以 z 与 x 之 间 的 相关 系数 ,来 间接 地 测算 x 
与 y 的 相关 系数 。 于 是 有 : 





(4. 49 ) 
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(4. 30) 
-rvV XX 


pv 一 
可 以 证 明 , 它 等 于 式 (4. 45) 中 的 Brv 。 


4.8.6 多 元 回归 的 1V 仿 计 


现在 ,考察 具有 特殊 观测 值 
y 一 XB 十 z& 
的 多 元 回归 模型 , 它 拥 有 天 个 回归 元 变量 ,因而 x 与 8 都 是 K Xx1 维 问 量 。 
工具 
假设 存在 >X1 维 工 具 向 量 z, 且 > 之 & ,满足 如 下 条件 : 


1. 2z 与 误差 4 不 相关 ; 

2. Zz 与 回归 向 量 x 是 相关 的 ; 

3. Zz 与 回归 元 同 量 x 是 强 相 关 的 ,而 不 是 弱 相 关 的 。 

对 于 一 致 性 而 言 ,前 两 个 性 质 是 必 知 的 ,并 且 前 面 已 对 纯 量 情况 进行 了 阐述 。 
定义 于 4.9.1 贡 的 第 三 个 性 质 是 为 了 确保 IV 估计 量具 有 良好 的 有 限 样 本 性 能 而 
对 第 二 个 性 质 的 强化 。 

在 多 元 回归 情况 下 ,z 与 X 可 能 分 享 某 些 共同 的 分 量 。x 的 某 些 分 量 可 能 与 x 
是 不 相关 的 ,这些 分 量 称 为 外 生 回 归 元 (exogenous regressors) 。 显然 ,这 些 分 量 因 
其 满足 第 1 个 条 件 与 第 2 个 条 件 而 适合 作为 工具 。x 的 另外 一 些 分量 可 能 与 wx 是 
相关 的 ,这 样 的 分 量 称 为 内 生 回 归 元 (endogenous regressors)。 这 些 分 量 会 导致 
OLS 的 非 一 致 性 ,并 且 明 显 不 适合 作为 王 具 ,因为 它们 满足 第 1 个 条 件 。 把 x 分 割 
成 x 二 [x1 xzj, 其 中 ,xi 包含 内 生 回 归 元 ,而 x 包含 外 生 回归 元 。 于 是 ,有 效 的 工 
具 是 z= 二 [zt xz ], 其 中 ,xs 能 作为 自身 的 工具 ,但 是 ,我 们 需要 找到 至 少 与 已 有 内 生 
枚 量 届 一 样 多 的 工具 到。 

识别 

联 立 方程 模型 的 识别 已 在 2. 5 市 阐述 。 这 里 ,我 们 具有 单个 方程 。 阶 条 件 
(order condition) 要 求 工 具 的 个 数 至 少 等 于 独立 内 生 分 量 的 个 数 , 所 以 r 宇 KK。 产 
r 一 开 , 则 此 模型 称 为 恰好 识别 的 (just-identified) ;车 ”~ 盖 氏 , 则 此 模型 称 为 过 度 识别 
的 (Coveridentifieq ) 。 

在 大 量 多 元 回归 应 用 中 , 仅 有 一 个 内 生 回 妇 元 。 例 如 ,工资 对 受 教育 回归 将 包 
括 很 多 其 他 回归 , 璧 如 年 龄 .地 理 位置 以 及 冢 寿 背 景 。 关 注 内 容 为 党 教育 的 系数 ， 
但 这 是 最 可 能 与 误差 项 相关 的 是 内 生变 量 , 因 为 能 力 是 不 可 观测 的 。 关 于 有 党 教育 
的 必需 的 单个 工具 的 可 能 备 选 者 已 由 4. 8. 2 市 给 出 。 

如 果 工 具 不 满足 第 1 个 条 件 , 那 么 该 工具 就 是 无 效 工 具 (invalid instrument ) 。 
如 果 工 具 不 满足 第 2 个 条 件 , 那 么 该 工具 就 是 不 相关 工具 (1731(irrelevant instru- 
ment) 。 如 果 极 少 的 工具 是 相关 的 ,那么 此 模型 可 能 是 不 可 识别 的 (unidentified ) 。 
当 工 具 与 作为 工具 的 那个 内 生变 量 之 间 存 在 很 小 的 相关 性 时 ,第 3 个 条 件 就 不 成 
立 。 此 模型 称 为 弱 识 别 的 (weakly identified ) , 而 该 工具 称 为 弱 工 具 (weak instru- 
ment) 。 

工具 变量 估计 量 

当 模 型 是 恰好 识别 时 ,有 rr 一 K ,工具 变量 估计 量 显 然 就 是 对 式 (4. 45) 中 矩阵 
的 推广 . 


Bv= (ZX) 1Z'y (4. 51) 
其 中 ,Z 表示 NXK 阶 和 矩 阵 ,; 第 i 行 是 z;。 一 旦 把 式 (4. 51) 中 的 y 用 回归 模型 y= 


[C1] 又 称 为 不 相干 工具 。 一 一 译 者 注 


Ar 


Bwv= (7X) ZT [XG 
一 GT 二 ZX)-LZ 
一 DG 十 CN-IZX)-N-LIZu 
由 此 可 得 , 若 : 
plim NIZu 一 0 
且 
plim NIZX 尖 0 


则 IV 佑 计量 是 一 致 的 。 这 些 条 件 本 质 土 就 是 第 1 个 条 件 与 第 2 个 条 件 , 即 z 与 aa 
是 不 相关 的 ,而 z 与 x 是 相关 的 。 为 了 确保 N-'Z'X 的 逆 存 在 ,假定 ZX 是 满 秩 
的 ,其 秩 为 K。 这 是 比 阶 条 件 一色 稍 强 的 假设 。 
就 寞 方差 误差 而 言 ,IV 估计 量 在 渐 近 形式 上 是 正 态 的 ,其 均值 为 8, 而 目 方 差 
短 阵 可 和 通过. 
VLBv]=(ZX) ZOQZ XT) (4. 52) 


一 致 地 估计 出 来 ,其 中 ,Q2 二 Diag[ 冶 ]。 此 结果 可 利用 类 似 于 4.4.4 节 给 出 OLS 的 
方式 求 出 。 

虽然 IV 估计 量 是 一 致 的 ,但 它 在 实践 上 却 损失 了 相当 大 的 有 效 性 。 直 观 上 
讲 , 如 果 工 具 z 与 回归 元 xx 具有 很 小 的 相关 性 ,那么 TV 将 不 会 起 作用 (参见 4. 9. 3 节 )。 


4.8. 7 两 阶 段 最 小 二 乘法 


式 (4. 51) 中 的 IV 佑 计量 要 求 工 具 的 数量 与 回归 元 的 数量 相等 。 对 于 过 度 识 
别 模型 来 说 ,可 通过 去 掉 一 些 工具 而 使 该 模型 变 为 恰好 识别 的 ,这 样 就 可 利用 IV 
佑 计量 。 但 是 , 当 去 掉 一 些 工具 变量 时 ,会 发 生 渐 近 有 效 性 损失 。 

然而 ,一 种 普遍 方法 是 使 用 两 阶段 最 小 二 乘法 (2SLS) : 


Bss=[XZ227) ZX TX ZZ 7) 1 ZY] (4. 53) 


此 方法 将 在 6. 4 节 曾 述 , 并 且 解 释 其 动机 。 

2SLS 佑 计量 是 IV 佑 计量。 在 恰好 识别 模型 中 , 它 简 化 成 由 式 (4. 51) 给 出 的 
含有 工具 艺 的 IV 估计 量 。 在 过 度 识 别 模型 中 ,如 果 工 具 是 XX, 那么 2SLS 估计 量 
等 于 式 (4. 51) 给 出 的 IV 佑 计量 ,其 中 ,X= 二 Z(ZZ) -1ZX 表示 XxX 对 z 的 OLS 回归 
预测 值 。 

顾名思义 ,2SLS 估计 量 是 通过 两 次 连续 关联 的 OLS 回归 而 获得 的 结果 ; 先 通 
过 x 对 z 的 OLS 问 归 得 到 %, 骨 通过 yy 对 的 OLS 回归 得 到 thsis。 这 种 解释 不 一 
定 能 推广 到 非 线 性 模型 ,参见 6. 5.4 节 ，。 

2SLS 估计 量 经 常 以 更 紧凑 的 形式 表述 成 : 


Bsis=[X PX] '[X’'Pzy) (4. 54) 
其 中 
P, 一 7Z(Z ZD) 1 


表示 寡 等 投影 矩阵 (projection matrix) , 它 满足 Py 二 Pz、 Py Pz 一 Pz ,以 及 PrzZ 一 7Z。 
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可 以 证 明 ,2SLS 佑 计量 是 渐 近 正 态 的 ,其 估计 渐 近 方差 为 ， 
V[ Bss|=N[EX PX)] [XZ(22) "IS(Z7) 1'ZXIXP,X)]! (4.55) 


在 通常 的 异 方 差 误差 情况 下 ,S= N 1 2; A ;Zi 与 丸 = y; — xX oss 广泛 使 用 的 小 
样本 调整 ,是 在 S$ 公式 中 用 N 一 K 去 除 ,而 不 用 N 去 除 。 

在 误差 项 是 同方 差 的 特殊 情况 下 ,可 进行 简化 ,并 且 V[ Bsis] 二 ss*[X'PzX] 1!。 
在 许多 引 论 课程 的 处 理 中 ,都 给 出 了 后 面 的 结果 ,但 是 ,更 一 般 的 公式 (4. 55) 倾 向 
于 现代 方法 , 即 把 误差 项 当成 潜在 的 异 方 差 项 。 

对 于 具有 异 方差 误差 的 过 度 识别 模型 而 言 ,被 怀特 (White，1982) 称 为 两 阶段 
工具 变量 佑 计量 (two-stage instrumental variables estimator ) 的 那 种 估计 量 , 比 
2SLS 更 为 有 效 。 此 外 ,一 些 广泛 使 用 的 模型 设 定 检验 需要 通过 这 一 估计 量 而 不 是 
2SLS 加 以 估计 。 有 关 详 细 内 容 , 参 见 6. 4. 2 节 。 


4. 8.8 IV 前 范例 
举 一 个 IV 估计 的 事例 ,考察 数据 生成 过 程 为 ， 


y 王 0 十 0. 5x 十 u 
三 一 0 十 z 十 也 


对 xz 的 斜率 系数 进行 估计 ,其 中 z~ 和 ML2, 1j, 并 且 (u, wv) 为 联合 正 态 分 布 ,其 均值 
为 0, 方差 为 1, 相 关系 数 为 0. 8。 

y 对 xz 的 OLS 估计 是 非 一 致 的 ,这 是 因为 由 构造 知 ,z 与 v 相关 ,所 以 zx 与 
相关 。IV 估计 会 得 出 一 致 估计 值 。 由 结构 知 ,z 与 是 不 相关 的 ,但 与 过 是 相关 
的 ,所 以 变量 z 是 有 效 工 具 。z 的 一 些 变形 ,比如 x’ ,也 都 是 有 效 工具 。 

表 4.4 给 出 源 日 样本 量 为 10 000 的 生成 数据 的 各 种 估计 值 与 相关 的 标准 误 
差 。 我 们 关注 斜率 系数 。 


表 4.4 工具 变量 例子 


OLS lV 25LS lV (2 ) 
常 值 一 0. 804 一 0.017 —0.017 —0. 014 

《0. 014) 《0. 022) (0. 032) 《0. 025) 
0. 902 0.510 0. 510 0. 509 

(0. 006 ) 《0. 010) 《0. 014) (0. 012) 
R’ 0. 709 0. 9570 0. 576 0. 574 


。 样本 量 为 10 000 的 生成 数据 。OLS 是 非 一 致 的 ,其 他 三 个 估计 量 是 一 致 的 。 当 误差 是 同方 差 时 , 报 
告 出 了 稳健 标准 误差 ,不 过 这 里 没有 将 它们 写 出 来 。2SLS 标准 误差 是 不 合适 的 。 数 据 生 成 过 程 由 下 一 节 
给 出 ， 

OLS 估 计量 是 非 一 致 的 ,其 和 斜率 系数 估计 值 0. 902 比 出 自 真 实 值 0.5 的 50 
个 标准 差 还 要 大 一 些 。 其 余 的 估计 值 是 一 致 的 ,并 且 都 位 于 0.5 的 两 个 标准 差 
之 内 。 


存在 几 种 方法 计算 IV 知 计 量 。 出 自 y 对 z 的 OLS 回归 所 得 到 的 斜率 系数 是 
0.516 8, 而 出 目 工 对 z 的 OLS 回归 所 得 到 的 斜率 系数 是 1. 012 4, 从 而 利用 式 
(4. 47) ,得 到 了 IV 估计 值 为 0. 516 8/1. 012 4 二 0. 510。 在 实践 中 ,人 们 把 z 作为 x 的 
工具 ,同时 利用 式 (4. 52) 计 算 标 准 误差 ,而 不 是 利用 式 (4. 45) 或 式 (4. 51) 直 接 计 算 
IV 佑 计量 。2SLS 佑 计量 [参见 式 (4. 54)] 能 通过 yy 对 3 的 OLS 回归 来 进行 计算 ， 
其 中 ,区 表示 xz 对 z 的 OLS 回归 的 预测 值 。 在 这 一 恰好 识别 的 模型 中 ,虽然 如 同 在 
6. 5. 4 下 将 要 解释 的 ,出 和 目 y 对 之 的 OLS 回归 的 标准 差 是 错误 的 ,但 2SLS 估计 值 
精确 地 等 于 IV 估计 值 。 

最 后 一 列 用 = 而 不 是 作为 zx 的 工具 。 因 为 对 与 六 不 相关 ,而 与 过 相关 ,所 
以 这 个 可 供 选 择 的 IV 估计 量 是 一 致 的 。 然 而 ,对 此 特定 dgp 而 言 ,z 表现 出 缺乏 
有 效 性 ,同时 斜率 系数 的 标准 误差 由 0. 010 上 升 到 0. 012 。 

对 于 单个 回归 元 与 单个 工具 情况 下 的 一 般 结 果 来 说 ,与 OLS 估计 相 比 ,TV 估 
计 的 有 效 性 存在 损失 ,参见 式 (4.61)。 此 处 ,于 .=0.510 是 较 大 的 ,这 在 表 4.4 中 
没有 给 出 , 因 市 其 损失 并 不 大 ,但 斜率 系数 的 标准 误差 却 从 0. 006 略微 增 大 到 
0.010。 在 实践 中 ,有 效 性 的 损失 比 这 要 大 得 多 ， 


4.9 实践 中 的 工具 变量 


重要 的 实践 问题 包括 ,决定 IV 方法 是 耕 是 必需 的 ,如 果 是 必需 的 , 则 决定 工具 
是 否 是 有 效 的 。 有 关 的 设 定 检 验 将 在 8. 4 节 中 阐述 。 不 幸 的 是 ,检验 的 有 效 性 是 
有 局 限 性 的 。 检 验 需要 下 述 假设 :恰好 识别 模型 中 的 工具 是 有 效 的 ,同时 只 对 过 度 
识别 约束 进行 检验 。 

给 定 有 效 工具 时 ,虽然 IV 估计 量 是 一 致 的 ,正如 下 面 将 要 闸 述 的 ,但 是 同 
OLS 佑 计量 相 比 ,IV 佑 计量 的 有 效 性 大 打折 扣 且 拥有 有 限 样 本 分 布 , 同 时 ,通常 的 
有 限 样本 量 与 渐 近 分 布 的 情况 截然 不 同 。 如 果 工 具 与 要 作为 工具 的 那个 变量 之 间 
存在 弱 相 关 性 ,那么 这 个 问题 将 被 放大 。 若 存在 的 工具 比 所 需要 的 更 多 一 些 , 则 会 
出 现 弱 工具 。 这 可 直接 通过 去 掉 一 些 工具 来 加 以 处 理 [参见 唐纳德 和 纽 韦 (Donald 
and Newey，2001) ]。 甚 至 当 具 有 最 少 工具 个 数 , 并 且 有 一 个 或 多 个 工具 是 弱 工 具 
时 ,就 会 产生 更 为 基础 性 的 问题 。 


4.9.1 如 工具 


缠 工 具 不 存在 单独 一 种 定义 。 许 多 学 独 使 用 如 下 的 肛 工 具 (weak instrument) 
标志 ,此 处 以 逐渐 增加 复 林 模型 的 形式 加 以 阐述 。 

9 纯 量 回归 元 x 与 纯 量 工具 z: 弱 工具 是 指 , 使 王 .很 小 的 工具 。 

@ 纯 量 回归 元 zx 与 向 量 工 具 z: 如 果 源 上 自 x 对 z 的 回归 所 得 到 的 RR( 记 为 Ri,) 
很 小 ,或 者 该 回归 整体 拟 合 的 下 统计 量 很 小 ,那么 此 工具 就 是 弱 工 具 ， 

@ 多 元 回归 元 x 只 含有 一 个 内 生 的 分 量 : 弱 工具 是 指使 偏 R* (partial R- ) 很 小 
或 者 下 统计 量 很 小 的 工具 ,这 些 偏 统 计量 将 在 4. 9. 1 节 末 尾 加 以 定义 。 

@ 多 元 回归 元 x 含有 几 个 内 生 分 量 ; 存 在 儿 种 测量 方法 。 


微观 经 济 计量 学 


i 


有 测量 
考虑 单方 程 : 
y= Bx 十 xz GB 十 z (4. 56) 


其 中 ,只 有 一 个 回归 元 zi 是 内 生 的 ,而 其 余 回 归 元 回 量 xs 是 外 生 的 。 假 定 工具 回 
量 z 包含 外 生变 量 x 和 至 少 一 个 其 他 的 工具 。 

一 个 可 行 Re 测量 是 源 自 zx! 对 z 回归 的 通常 的 R: 。 然 而 ,因为 x 与 x 是 高 
度 相 关 的 ,所 以 R? 可 能 会 很 高 ,但 是 ,从 直观 上 看 ,我们 确实 需要 zi 杞 工具 而 不 是 
与 xz 高 度 相关 。 

因此 , 邦 德 、 耶 格 和 贝克 (Bound，jJaeger and Baker，1995) 提 出 使 用 俩 R, 记 
为 R;, 它 能 清除 xz 的 影响 。Rs 可 从 回归 : 


(zi 一 到 ) 一 (7 一 2) -wv (4. 57 ) 


中 获得 R? 作为 R? ,其 中 ,| 与 z 分别 表 示 zi 对 xz 回归 与 z 对 xz 回归 的 拟 合 全。 
在 恰好 识别 的 情况 下 ,z 一 2 将 简化 成 zi 一 z1 ,其 中 ,zi 表示 单个 工具 而 不 是 xz ,而 
zl 表示 源 自 zi 对 xs 回归 的 拟 合 值 。 

R2 比 尺 2 ,: 要 小 许多 ,这 并 不 令 人 感到 意外 。 当 只 存在 唯一 回归 元 并 县 它 是 
内 生 的 时 ,R32 的 公式 可 以 简化 成 一 ,而 当 仅 存在 一 个 工具 时 , 它 进 一 步 简化 成 
Cor| x, xz ]。 

考察 具有 一 个 以 上 内 生变 量 的 单方 程 模型 ,同时 关注 第 一 个 内 生变 量 的 系数 
估计 。 于 是 , 式 (4. 56) 中 ,ri 是 内 生 的 ,另外 ,x 中 的 一 些 变量 也 是 内 生 的 。 几 种 
可 供 选 择 的 其 他 测量 方式 是 用 控制 其 他 内 生 回 归 元 存在 的 残 差 蔡 代 式 (4. 57) 的 右 
边 项 。 谢 伊 (Shea，1997) 提 出 一 种 偏 R* ,比如 说 RZ ,把 它 计 算 成 (zi 一 2 ) 与 (一 
这 | ) 之 间 样 本 相关 的 平方 ,这 里 的 (x 一 ) 再 次 表示 源 自 xi 对 xs 回归 的 残 差 ,而 
(| 一 这 | ) 表 示 源 自 吉 (来自 z 对 z 回归 的 拟 合 值 ) 对 (来 自 x 对 zz 回归 的 拟 合 
值 ) 回 归 的 残 差 。 这 里 ,Zz 是 zi 关于 z 回归 的 拟 合 ,而 是 xz 关于 2z 的 拟 合 。 流 
斯 基 特 和 斯 基 尔 斯 (Poskitt and Skeels，2002) 提 供 一 种 可 供 选 择 的 偏 R* , 它 如 同 
谢 伊 的 RY 一 样 , 当 只 存在 一 个 内 生 回归 元 时 ,就 简化 为 Rj。 然而 ,上 霍 尔 、 鲁 德 布施 
和 威 尔 克 科斯 (Hall，Rudebusch and Wilcox，1996) 提 出 使 用 典型 相关 ，。 

这 些 关 于 第 一 个 内 生变 量 系 数 的 测量 法 ,也 可 对 其 他 的 内 生变 量 重 复 进 行 。 
另外 ,波斯 基 特 和 斯 基 尔 斯 (Poskitt and Skeels，2002) 考 察 了 可 应 用 于 所 有 内 生变 
量 联 合 工 具 的 R* 测量 。 

当 偏 R? 测量 失效 时 ,估计 量 的 非 一 致 性 问题 与 预测 损失 将 被 放大 ,正如 在 4. 
9.2 节 和 4. 9. 3 节 详 细 阐 述 的 。 特 别 地 ,参见 式 (4. 60) 和 式 (4. 62) 。 

偏 下 统计 量 

对 于 将 在 4. 9. 4 节 考 察 的 不 好 的 有 限 样本 表现 ,普遍 使 用 相对 测量 ,即使 用 在 
内 生 回 归 元 对 工具 的 回归 中 系数 是 否 为 0 的 下 统计 量 ，。 

对 于 内 生 的 单个 回归 元 ,我 们 使 用 整体 亚 统 计量 ,检验 内 生 回 归 元 对 工具 的 加 
归 xz=zzx 十 v 中 ,x 二 0。 

更 广泛 地 ,一 些 外 生 回 归 元 也 可 以 出 现在 模型 中 ,而 在 具有 单个 内 生 回 归 元 x 
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的 模型 (4. 56) 中 ,我 们 运用 ， 
T=Z1 A) 十 XA 二 (4., 58) 


中 zr1 王 0 检验 的 下 统计 量 ,其 中 ,zw 表示 工具 而 不 是 外 生 回 归 元 ,x 表示 外 生 回归 
元 。 这 古 两 阶段 最 小 二 乘法 IV 解释 的 第 一 阶段 回归 。 

此 统计 量 用 作 IV 估计 量 中 潜在 有 限 样 本 偏 倚 的 标志 。 在 4. 9. 4 节 , 我 们 将 解 
释 施 泰 格 和 斯 托 克 (Staiger and Stock，1997) 的 结果 ,他们 提出 ,小 于 10 的 值 是 有 
问题 的 ,而 小 于 或 等 于 5 的 值 则 是 极端 有 限 样 本 偏 倚 的 标志 ,同时 ,我 们 考虑 把 它 
推广 到 一 个 以 上 内 生 回 归 元 的 情况 。 


4.9.2 IV 信 计量 的 非 一 臻 性 


IV 具有 一 致 性 的 本 质 条 件 是 4. 8. 6 节 中 的 第 1 个 条 件 , 即 工具 应 该 与 误差 项 
不 相关 。 在 恰好 识别 情况 下 ,不 存在 这 类 检验 。 在 过 度 识别 情况 下 ,对 过 度 识 别 假 
设 进 行 检 验 是 可 能 的 (参见 6. 4. 3 节 )。 于 是 ,拒绝 可 能 是 由 于 工具 的 内 生性 或 由 
于 模型 失效 所 导致 。 因 此 ,第 1 个 条 件 很 难 被 直接 检验 ,并 且 决 定 一 个 工具 是 否 为 
外 生 的 ,通常 是 很 主观 的 决策 ,尽管 人 们 经 常 以 经 济 理论 为 指导 。 

通过 畏 数 形式 约束 (function form restriction ) 创立 外 生 工 具 总 是 可 行 的 。 例 
如 ,假定 存在 两 个 回归 元 ,因而 y 王 pz 十 Bz 十 w 其 中 与 是 不 相关 的 ,x 与 
u 是 相关 的 。 广 意 到 ,本 节 上 自始至终 地 假定 所 有 变量 均 是 以 偏离 其 均值 来 测算 的 ， 
所 以 ,为 了 不 失 一 般 性 ,省略 截 距 项 。 于 是 ,OLS 是非 一 致 的 ,因为 x; 是 内 生 的 。 
看 起 来 ,关于 zz 的 好 工具 是 好 ,因为 ri 与 4 是 不 相关 的 ,所 以 zx? 与 也 是 不 相关 
的 。 然 而 ,这 个 工具 的 有 效 性 需要 有 关 条 件 均值 的 函数 形式 约 东 , 即 x 仅 以 线性 
方式 而 不 是 以 二 次 形式 进 和 模型。 在 实践 中 ,人 们 认为 ,线性 模型 是 唯一 的 近似 ， 
并 且 以 这 种 人 工 方式 获得 的 工具 很 容易 遭 到 批评 。 

创 六 有效 工 具 的 一 种 较 好 的 方式 ,是 通过 可 供 选 择 的 排除 性 约束 (exclusion 
restrictions) ,该 排除 性 约束 并 非 十 分 依赖 于 对 荫 数 形式 的 选择 。 几 个 实践 例子 由 
4. 8. 2 节 给 出 。 

一 些 结构 模型 ,比如 经 典 线性 联 立 方程 模型 (参见 2. 4 节 和 6. 10. 6 节 ), 均 以 
非常 明显 的 方式 做 出 这 类 排除 性 约束 。 用 于 约束 太 有 针对 性 而 常常 遭 到 批评 ， 除 
非 有 令 人 信服 的 经 济 理论 支持 这 些 约束 。 

对 于 面板 数据 应 用 来 说 ,有 理由 假定 当前 仅 有 的 数据 可 用 于 关注 的 方程 之 
中 一 一 在 误差 项 是 序列 不 相关 的 假设 下 ,排除 性 约束 允许 把 过 去 数据 用 作 工 具 ( 参 
见 22. 2.4 三)。 类 似 地 ,在 不 确定 性 下 进行 决策 的 模型 中 (参见 6. 2.7 节 ), 把 滞后 
变量 用 作 工 具 ,. 因 为 它们 是 信息 集 的 一 部 分 。 

不 存在 工具 外 生性 的 正式 检验 ,工具 外 生性 没有 另外 去 检验 回归 方程 是 否 被 
正确 议定 。 工 具 外 生性 必然 依赖 先 验 信息 , 比如 来 自 经 济 学 理论 或 统计 理论 的 
信息 。 邦 德 等 人 (Bound et al ，1995 ,第 446 一 447 页 ) 对 安 格 里 斯 特 和 克 和 鲁 格 
(Angrist and Krueger,，1991) 甩 使 用 工具 有 效 性 的 评价 ,提供 了 涉及 确定 工具 外 和 后 
性 的 杰出 的 事例 。 


微观 经 济 计量 学 

特别 重要 的 是 ,如 采 工 具 是 弱 的 ,那么 工具 就 是 外 生 的 ,因为 就 弱 工 具 而 言 ,其 
全 工具 的 非常 适度 的 内 生性 能 导致 IV 参数 估计 值 ,该 值 与 已 经 非 一 致 的 OLS 参 
数 估计 值 相 比 ,显得 更 加 非 一 致 。 

简单 起 见 9 考察 具有 一 个 回归 元 与 一 个 工具 的 线性 回归 模型 ? 因此 ,yy 一 AZzr 十 Ho 
然后 ,经 过 一 些 代 数 计算 ( 留 作 习 题 ) ,得 出 : 


plim Biv TB_ Cor| z,u | ] 
plim Bus 一 他 Cor| Xx 9 u | Cor| z ,| 


因而 , 束 无 效 工 具 以 及 工具 与 回归 元 之 间 很 小 的 相关 性 而 言 ,IV 估计 量 甚至 比 
OLS 的 非 一 致 性 更 加 严重 。 例 如 ,假定 z 与 x 的 相关 系数 是 0.1, 这 对 横 截 面 数据 
来 说 也 是 不 罕见 的 。 于 是 ,只 要 z 与 & 的 相关 系数 大 于 xz 与 4 的 相关 系数 0. 1 售 ， 
IV 的 非 一 致 性 比 OLS 的 非 一 致 性 更 严重 。 

结果 (4. 59) 可 以 推广 到 具有 一 个 内 生 回 归 元 和 几 个 外 生 回 归 元 .具有 ii d 误 
差 以 及 工具 包含 所 有 外 生 回 归 元 的 模型 (4. 56) 上 。 从 而 有 : 


plim Bi.zsis —B Corlz,u|., 1 
A 
plim pos 一 局 Cor| x ,wu | Kk, 


其 中 ,Rs 已 在 式 (4. 56) 后 定义 。 对 于 一 个 以 上 内 生 回 归 元 情况 的 推广 ,参见 谢 伊 
(Shea，1997 ) 。 

这 些 结 果 对 于 运用 IV 有 具有 深远 的 意义 , 邦 德 等 人 (Bound et al. ，1995) 曾 对 
此 加 以 强调 。 如 果 工 具 是 弱 的 ,那么 甚至 适度 的 工具 内 生性 ,能 够 导致 比 OLS 更 
为 严重 的 非 一 致 性 。 也 许 是 因为 该 结论 如 此 消极 ,文献 忽略 了 弱 工 具 的 这 一 方面 。 
最 近 一 个 著名 的 例外 是 哈 思 和 滩 斯 曼 (Hahn and Hausman，2003a)， 

绝 大 多 数 文 丙 均 假定 第 1 个 条 件 得 到 满足 ,所 以 IV 是 一 致 性 的 ,同时 关注 归 
属于 弦 工 具 的 其 他 复杂 性 。 


4.9.3 低 准 确 性 


当 OLS 是 非 一 致 性 时 ,虽然 IV 佑 计 能 够 产生 一 致 估计 ,但 它 还 是 损失 了 准确 
性 。 从 直观 上 看 ,由 4. 8. 2 节 知 ,工具 > 是 能 够 导致 x 上 的 外 生性 运动 的 一 个 处 
理 , 但 是 这 样 做 会 有 相当 大 的 噪音 。 

就 弱 工 具 而 言 ,准确 性 损失 会 增 大 ,而 标准 误差 则 会 增加 。 

随 着 精度 损失 的 增加 , 较 弱 工具 的 标准 差 也 就 增加 。 在 最 简单 的 仅 含 一 个 单 
个 回归 元 与 具有 ii d 误差 项 的 单一 工具 情况 下 ,很 容易 看 出 这 一 点 。 于 是 , 渐 近 
方差 为 : 





《4. 59 ) 


(4. 60 ) 


V[LBwv | =o (xX2) ! 2 7CZ xX) (4. 61) 
=[og /x x|/[ (zz x) /(z 2) (x x) | 
=V[Bos]/r’, * 
例如 ,如 果 xz 与 x 之 加 的 样本 相关 系数 平方 等 于 0. 1, 那 么 IJV 的 标准 差 将 是 OLS 
的 标准 差 的 10 倍 。 有 册 者 , IV 佑 计量 拥有 比 OLS 估计 量 更 大 的 方差 , 除非 
Cor| z, 工 | 一 1 。 


辐 


结果 (4. 61) 能 够 被 推广 到 具有 一 个 内 生 回 归 元 以 及 几 个 外 生 回归 元 、. 具 有 iid 
误差 以 及 包括 所 有 外 生 回 归 元 的 工具 的 模型 (4. 56) 上 。 从 而 有 : 


se[ Bi,zs1s | = se[ Bi,ors |/R, (4. 62) 


其 中 ,sel， 表示 渐 近 标准 差 , 而 Rs 已 在 式 (4. 56) 后 面 定 义 。 对 于 推广 到 一 个 以 上 
内 生 回 归 元 的 情况 来 说 ,R2 要 用 谢 伊 (Shea，1997) 提 出 的 RY 代替。 这 就 提供 了 
谢 伊 检验 统计 量 的 动机 。 

差 的 精确 度 集中 在 内 生变 量 的 系数 上 。 对 于 外 生变 量 而 言 ,2SLS 系数 估计 值 
的 标准 误差 类 似 于 OLS 的 那些 标准 误差 。 从 直观 上 看 ,外 生变 量 作为 其 自身 的 工 
具 , 所 以 ,它们 确实 拥有 强 工 具 。 

对 于 内 生 回 归 元 系数 而 言 , 它 有 具有 很 小 的 偏 RR ,而 不 是 尺 : ,这 就 导致 了 估计 量 
精确 度 的 损失 。 这 就 解释 了 2SLS 标准 误差 为 什么 非常 大 于 OLS 的 标准 误差 , 尽 
管内 生变 量 与 工具 之 间 的 相关 性 很 融 。 知 利用 其 他 方法 ,内 生变 量 系数 的 2SLS 
标准 误差 远大 于 OLS 标准 误差 ,这 提供 了 工具 是 弱 的 显著 信号 。 

用 于 测算 由 弱 工 具 引 起 的 IV 精确 度 损失 的 统计 量 称 为 工具 相关 (instrument 
relevance) 测 量 法 。 在 某 种 程度 上 ,如 果 IV 标准 误差 远大 于 OLS 标准 误差 ,那么 
当 问 题 很 容易 被 检测 出 时 ,工具 相关 的 测量 法 就 不 必要 了 。 


4.9.4 有 限 样 严 优 位 


本 节 概 述 关 于 “ 弱 工 具 ” 的 相当 富有 挑战 性 的 且 尚 未 完成 的 文献 ,关注 于 实践 
问题 ,甚至 在 “大 ”样本 渐 近 理论 下 ,对 于 IV 估计 量 分 布 能 提供 不 好 的 近似 。 特 别 
地 ,即使 IV 估计 量 是 渐 近 一 致 的 ,但 是 在 有 限 样本 中 ,IV 估计 量 却 是 有 偏 的 。 当 
工具 是 弱 的 时 候 ,此 种 偏 倚 尤其 显著 。 

对 于 非 一 致 性 的 OLS 佑 计量 而 言 ,IV 的 偏 倚 可 以 是 相当 大 的 一 一 正如 纳 尔 
还 和 施 塔 次 (Nelson and Startz，1990) 通 过 简单 蒙特 卡 罗 实 验 所 证 明 的 ,而 且 拖 德 
等 人 (Bound et al. ，1995) 证 明 , 它 借助 于 涉及 成 千 上 万 个 观测 值 的 真实 数据 , 却 是 
非常 弱 的 工具 。 再 者 ,纳尔逊 和 施 塔 尝 (Nelson and Startz，1990) 还 证 明 ,标准 误 
差 也 是 具有 很 大 偏 倚 的 。 

理论 文献 涉及 非常 专业 且 高 级 的 经 济 计 量 理论 ,这 是 因为 获得 IV 估计 量 样本 
均值 确实 很 困难 。 为 了 理解 这 一 点 ,考虑 适应 于 由 4. 4. 8 节 给 出 的 OLS 佑 计量 通 
常 无 偏 性 证 明 的 IV 估计 量 。 在 恰好 识别 情况 下 ,由 式 (4. 51) 定 义 的 Biv 得 出 ， 


El Brv =B+EzxoL (ZX) ZU 
一 BTTEzxLCZX) 1IZ XEL[alZ,X]] 


其 中 ,利用 期 望 和 迭代 定理 (参见 A. 8 节 ), 对 于 所 有 随机 变量 ZX 和 ,可 通过 先 对 
以 Z 与 X 为 条 件 的 u 取 数学 期 望 而 得 到 非 条 件 期 望 值 。IV 估计 量 拥有 均值 8 的 
明显 充分 条 件 是 ,ELu|Z,Xj 二 0。 然 而 ,这 一 假设 太 强 ,因为 它 蕴 含 ELu|X]=0, 在 
此 情况 下 ,首先 不 需要 工具 。 因 此 ,获得 E[ By ] 并 不 存在 简单 方法 。 在 证 实 一 致 
性 时 不 会 出 现 类 似 问 题 。 于 是 ,得 出 二 8 十 (NZX)TITN -1ZV0, 其 中 ,NZn 
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项 能 够 脱离 X 而 单独 考虑 ,同时 假设 NiZ vu 一 0 会 产生 plim NIZ'u 一 0。 

因此 ,我 们 需要 使 用 其 他 可 供 选 择 的 方法 来 获得 IV 估计 量 的 均值 。 这 里 ,我 
们 仅仅 概述 一 些 重要 结果 。 

起 初 的 研究 要 做 出 变量 联合 正 态 分 布 与 同方 差 这 种 强 假设 。 然 后 ,IV 估计 量 
具有 威 沙 特 (CWishart) 分 布 (第 13 章 将 给 出 其 定义 )。 令 人 惊讶 的 是 ,甚至 在 恰好 
识别 情况 下 ,IV 估计 量 的 均值 并 不 存在 ,这 作为 有 限 样 本 问题 存在 的 信和 号。 如 果 
至 少 存在 一 个 过 度 识 别 约 东 ,那么 一 定 存在 均值 ;如 果 至 少 存 在 两 个 过 度 识别 , 那 
么 一 定 存 在 方差 。 其 至 当 存 在 均值 时 ,就 相对 于 OLS 预测 方面 的 偏 倚 而 言 ,IV 信 
计量 是 有 偏 的 。 当 拥有 更 多 的 过 度 识 别 约 束 时 ,其 偏 倚 将 会 增 大 ,最 终 等 于 OLS 
估计 量 的 偏 倚 。 戴 维和 森 和 才 金 农 (Davidson and Mackinnon，1993 ,第 221 一 224 
页 ) 曾 给 出 详细 讨论 。 基 于 和 唆 级 数 展 开 的 近似 也 经 常 得 到 应 用 。 

是 什么 决定 了 有 限 样本 信和 们 的 大 小 呢 ?” 对 于 拥有 单个 回归 元 x 一 一 内 生 的 并 
通过 简化 形式 的 模型 x+ 二 zz 十 vv 而 与 工具 z 相关 一 一 的 回归 来 说 ,把 集中 参数 
(concentration parameter)z 定义 成 一 Xx'ZZ A /co:。 可 以 证 明 ,IV 的 偏 倚 是 艺 的 
增 函 数 。 数 量 /K 是 对 7 二 0 是 否 成 立 进 行 检 验 的 下 统计 量 的 总 体 近 似 ,其 中 ， 
K 表示 工具 个 数 。 可 以 证 明 ,统计 量 下 一 1 是 不 /K 的 近似 无 惫 估计 ,其 中 ,F 表示 
第 一 阶段 简化 式 模型 的 实际 F 统计 量 。 这 就 产生 了 建立 在 4. 9.2 节 给 出 的 下 统 
计量 基础 上 的 有 限 样 本 偶 倚 的 检验 。 

施 泰 格 和 斯 托 克 (Staiger and Stock，1997) 在 比较 弱 的 分 布 假设 下 ,获得 一 些 
结果 。 在 特殊 情况 下 ,不 再 需要 正 态 条 件 。 他 们 使 用 了 弱 工 具 渐 近 特 性 的 方法 , 邵 
当 N-~co 时 ,就 一 系列 具有 考 / 芭 的 保持 常 全 的 模型 而 言 , 获 得 IV 估计 量 的 极限 
分 布 。 在 简化 模型 中 ,1/F 提供 相对 于 OLS 而 言 的 IV 估计 量 的 有 限 样 本 偏 倚 的 
近似 估计 。 更 一 般 地 ,给 定 开 时 仿 倚 的 范围 ,会 随 着 内 生 回 归 元 的 个 数 与 工具 个 数 
而 变化 。 模 拟 表明 ,为 了 确保 IV 中 最 大 偏 傈 不 超过 OLS 偏 傈 的 10% ,我 们 需要 
F>>10。 这 个 极限 值 被 广泛 引用 ,但 是 在 6. 5 附近 却 失 效 , 例 如 ,人 们 对 IV 偏重 为 
OLS 偏 倚 的 20% 感 到 满意 。 因 此 , 稍 穴 严格 性 的 经 验 法 则 是 下 六 5。 谢 贫 (Shea， 
1997) 已 经 证 明 ,很 小 的 偏 R* 与 有 限 样 本 偶 倚 也 有 关系 , 却 不 仔 在 类 似 于 使 用 偶 
R 作为 有 限 样本 偏 丛 诊断 的 经 验 法 则 。 

对 于 具有 一 个 以 上 内 生 回 归 元 的 模型 ,可 对 每 个 内 生 回 归 元 计算 各 自 的 下 统 
计 景 。 就 联合 统计 量 而 言 , 斯 托 克 、 赖 特 和 与 亚 (Stock,Wright and Yogo，2002) 提 
出 ,利用 类 似 于 第 一 阶段 检验 下 统计 量 的 矩阵 最 小 特征 值 。 斯 托 友 和 与 吾 (Stock 
and Yogo，2003) 曾 述 了 , 当 人 们 期 望 的 偏 倚 度 、 内 生变 量 的 个 数 以 及 过 度 识别 约 
束 条 件 的 个 数 变化 时 ,这 些 特征 值 的 相关 临界 值 。 这 些 表 格 包括 了 作为 特殊 情况 
的 单个 内 生 回 归 元 ,同时 假定 至 少 两 个 过 度 识 别 约束 ,所 以 不 能 把 它们 应 用 于 恰好 
识别 模型 上 。 

不 仅 IV 估计 量 可 产生 有 限 样 本 偏 倚 , 而 且 IV 标准 误差 与 检验 统计 量 也 可 产 
生 有 限 样本 偏 倚 。 斯 托 克 等 人 (Stock et al. ，2002) 阅 述 了 类 似 于 沃 尔 德 的 检验 方 
法 ,因此 ,在 名 义 水 平 5% 下 对 8=& 进行 检验 ,比如 说 ,拥有 不 超过 15% 的 真实 水 
平 。 斯 托 克 和 与 看 (Stock and Yogo，2003) 也 提供 了 关于 这 一 失真 方法 的 详细 表 


格 , 内 容 包 括 恰 好 识别 模型 。 
4.9.5 对 盟 工 具有 刚 应 


在 面 对 弱 工具 时 ,实践 者 要 做 些 什么 呢 ? 

正如 已 提 及 的 ,一 种 方法 是 限制 所 用 工具 个 数 。 这 可 通过 省 略 一 些 工具 或 者 
对 工具 加 以 组 合 而 实现 。 

如 采 有 限 样本 但 倚 是 人 们 关注 的 内 容 , 那 么 其 他 一 些 可 供 选 择 的 估计 量 可 能 
具有 比 2SLS 更 好 的 小 样本 性 质 。6. 4. 4 节 将 阐述 许多 其 他 可 供 选 择 的 方法 ,一 些 
方法 是 IV 的 变形 。 

尽管 强调 了 有 限 样本 偏 倚 , 但 在 应 用 中 由 弱 工 具 引 起 的 其 他 问题 同样 是 很 重 
要 的 。 就 充分 大 样本 而 言 ,第 一 阶段 的 简化 式 下 统计 量 会 很 大 ,以 至 于 有 限 样 本 偏 
价 不 是 什么 问题 。 同 时 , 偏 R* 可 能 非常 小 ,甚至 对 于 模型 误差 与 工具 之 间 微 小 的 
相关 会 产生 脆弱 性 。 这 一 点 很 难 加 以 检验 ,上 且 难以 克服 。 

正如 4.9. 3 节 与 4. 9.4 节 所 详 述 的 ,估计 量 在 精度 上 也 具有 很 大 的 损失 。 在 
这 些 情况 下 ,或 者 需要 更 大 的 样本 ,或 者 一 定 要 用 可 供 选 择 的 方法 去 估计 因果 边际 
效应 。 这 些 方法 在 2. 8 节 做 了 概述 ,而 且 在 本 书 的 其 他 一 些 地 方 也 要 加 以 阐述 。 


4.9.6 IV 应 用 


克 林 (Kling，2001) 详 细 地 分 析 使 用 靠近 学 院 作 为 受 教育 工具 的 情况 。 这 里 ， 
我 们 使 用 同样 的 一 组 数据 ,即使 用 1976 年 NLS 的 年 龄 在 24 一 34 岁 的 3 010 个 男 
性 (数据 组 ) 数 据 , 并 生成 曾 先 后 被 卡 德 (Card，1995) 和 克 林 (Kling，2001) 使 用 的 
表格 1。 所 合计 的 模型 为 : 


ln zu 一 a 十 Bisi 十 Be 十 包 e + Xz Tu 


其 中 ,s 表示 党 教育 年 数 ,e 表示 工作 经 历 的 年 数 ,e: 表示 经 历年 数 的 平方 ,而 x 表 
不 含有 26 个 控制 变量 的 回 量 ,这 26 个 控制 变量 主要 是 地 理 指 标量 和 父母 受 教 育 
的 程度 。 

由 于 缺少 关于 能 力 的 数据 ,所 以 受 教育 变量 被 认为 是 内 生 的 。 另 外 两 个 工作 
经 历 变 量 是 内 生 的 ,因为 工作 经 历 被 计算 成 年 龄 减 去 受 教育 年 数 ,再 减 掉 6, 这 样 
做 在 文献 中 是 很 平滑 的 ,而 且 受 教育 是 内 生 的 。 所 以 ,至 少 需 要 三 个 工具 。 

此 处 ,确实 使 用 了 三 个 工具 ,因此 该 模型 是 恰好 识别 的 。 第 一 个 工具 是 col ， 
表示 是 否 靠近 四 年 制 学 院 的 标示 变量 。 这 个 工具 已 在 4. 8. 2 节 讨 论 过 。 另 外 两 个 
工具 是 年 龄 与 年 龄 平方 。 这 两 个 工具 与 经 历 及 经 历 平方 之 间 存 在 高 度 相 关 , 然而， 
它们 可 以 从 工资 对 数 模 型 中 省 略 掉 ,因为 工作 经 历 会 起 作用 。 其 余 的 回归 元 向 量 
X2 作为 目 身 的 工具 ， 

尽管 年 龄 很 明显 是 外 生 的 ,但 是 诸如 社会 技术 这 些 不 可 观察 量 可 能 和 年 龄 与 
薪水 相关 。 那 么 年 龄 和 年 龄 平方 作为 工具 就 有 问题 了 。 这 一 点 描述 了 一 般 性 的 观 
点 一 一 不 用 工具 有 效 性 的 假设 。 

表 4.5 给 出 一 些 结果 。B, 的 OLS 估计 为 0.073, 因 此 , 受 教育 额外 增加 一 年 ， 
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会 使 工资 平均 提高 7. 6%[ 二 100X (er 一 1)]。 一旦 省 略 能 力 , 此 估计 值 关 于 BB 
是 非 一 致 估计 值 。 由 于 模型 是 恰好 识别 的 ,所 以 IV 佑 计 或 者 等 价 的 2SLS 倍 计 是 
0. 132。 当 受 教 育 额外 增加 一 年 ,会 引起 工资 增加 14. 1%[ 二 100X (er 3 一 1)]。 


表 4.5 受 教育 回报 :工具 变量 估计 量 : 


OLS IV 
受 教育 (3) 0. 073 0. 132 
(0. 004) (0. 049) 
R? 0. 304 0. 207 
谢 伊 的 偏 一 0. 006 
关于 s 的 第 一 阶段 统计 量 一 8. 07 


a 样本 是 3 010 名 青年 男性 。 因 变量 是 小 时 工资 对 数 。 给 定 受 教育 时 的 系数 与 标准 误差 ,没有 报告 经 

验 .经 验 平 方 .26 个 控制 变量 和 1 个 截 距 的 估计 值 。 对 应 于 3 个 内 生 回归 元 一 一 受 教育 (*) .经验 (e) .经 验 平 
方 (ez) ,三 个 工具 分 别 为 是 否 靠 近 四 年 制 大 学 的 标示 变量 年龄 .年龄 平方 。 偏 R? 与 第 一 阶段 正统 计量 在 检 
验 中 均 对 弱 工 具 诊断 给 予 解释 。 

IV 估计 量 不 如 OLS 的 估计 量 那样 有 效 。 正 式 检 验 的 确 疫 有 拒绝 同方 差 性 ， 
但 我 们 仍 遵循 克 林 (Kling, 2001) 的 路 线 , 并 使 用 通常 的 标准 差 ,该 标准 差 非常 接近 
异 方差 性 稳健 的 标准 误差 。Bi,ois 的 标准 差 是 0. 004, 而 Bi,w 的 标准 差 是 0. 049, 后 
者 超过 前 者 的 10 倍 。 相 应 的 其 他 两 个 内 生 回 归 元 的 标准 误差 相差 超过 4 们 ,而 相 
应 的 外 生 回 归 元 的 标准 误差 相差 1. 2 倍 左 右 。R* 由 0. 304 下 降 到 0. 207 。 

通过 R’ 测量 可 以 证 实 , 这 些 工具 与 受 教育 并 不 是 非常 关联 的 。 注 意 到 ,一 个 
简单 的 检验 是 ,通过 受 教 育 对 所 有 工具 的 回归 (4. 58) 得 出 R= 二 0.297, 厂 三 个 添加 
的 工具 被 省 略 , 则 R? 二 0. 291, 两 者 相差 很 小 。 更 正式 地 ,此 处 的 谢 伊 侦 下 三 
0. 006 4 一 0. 08: ,由 式 (4. 62) 知 ,可 以 预测 , Br 的 标准 误差 将 被 增 大 12.5 = 
1/0. 08 倍 , 非 常 接 近 于 这 里 观测 到 的 扩大 倍数 。 这 使 受 教育 的 上 统计 量 由 19. 64 
减少 至 2. 68。 在 许多 应 用 中 ,这 种 减少 会 导致 统计 量 不 显著 。 此 外 ,由 4.9.2 市 
知 ,甚至 工具 col; 与 误差 项 u; 之 间 的 微小 相关 ,都 将 导致 IV 的 非 一 致 性 。 

为 了 研究 有 限 样本 偏 倚 是 否 也 是 一 个 问题 ,我 们 实施 受 教育 对 所 有 工具 的 回 
归 (4. 58)。 对 三 个 添加 工具 的 联合 显著 性 加 以 检验 ,得 出 下 统计 量 为 8. 07, 这 上 蜡 
示 IV 的 偏 倚 可 能 是 OLS 偏 倚 的 10% 或 20%。 对 于 其 他 两 个 内 生变 量 的 类 似 回 
归 , 得 到 更 大 一 些 的 下 统计 量 , 所 以 年 龄 是 经 历 的 一 个 很 好 的 工具 。 倘 大 存 在 三 个 
内 生 回 归 元 ,实际 上 较 好 的 方法 是 使 用 已 在 4. 9. 4 节 讨 论 的 斯 托 克 等 人 (Stock et 
al. ，2002) 的 方法 ,虽然 这 里 的 问题 被 限制 在 受 教育 上 ,但 是 ,经 历 与 经 历 平方 的 谢 
伊 偏 R? 分 别 等 于 0. 087 6 与 0. 013 8, 而 其 第 一 阶段 下 统计 量 分 别 是 1772 与 
1 542。 

如 果 可 利用 添加 工具 法 ,那么 模型 变 成 过 度 识别 的 ,此 外 ,可 利用 标准 方法 对 
过 度 识别 约束 进行 检验 (参见 8. 4. 4 定 )。 


4. 10 ”应 用 研究 


在 所 有 的 标准 经 济 计量 学 软件 包 中 ,对 于 横 截 面 数 据 来 说 ,本 章 的 估计 方法 是 


可 以 实施 的 ,但 不 是 所 有 的 方法 都 可 以 完成 分 位 数 回归 。 绝 大 多 数 方法 都 提供 稳 
健 标准 误差 作为 选项 而 不 是 默认 项 。 / 

应 用 方面 最 困难 的 估计 量 是 工具 变量 估计 量 , 因 为 在 许多 潜在 应 用 中 ,很 难 获 
得 那 种 与 误差 项 无 关 而 与 回归 元 一 一 或 者 是 被 用 于 工具 的 回归 元 一 一 适当 相关 的 
工具 。 这 种 工具 可 通过 对 完全 结构 模型 ,譬如 联 立 方程 系统 加 以 设 定 而 得 到 。 当 
今 的 应 用 研究 强调 其 他 一 些 可 供 选 择 的 近似 方法 ,比如 自然 实验 。 


4. 11 文献 注释 


本 章 的 结果 在 许多 一 年 级 研究 生 课 本 中 都 曾 提 及 ,譬如 戴维森 和 麦 金 农 
(Davidson and MacKkinnon，2004); 格林 (Greene，2003); 林 文 夫 (Hayashi， 
2000); 约 革 斯 顿 和 迪 纳 尔 多 (Johnston and diNardo, 1997); 米 特 尔 哈 默 .机 奇 和 米 
勒 (Mittelhammer Judge and Miller，2000) ; 鲁 德 (Ruud，2000) 。 本 节 强 调 的 是 具 
有 随机 回归 元 的 回归 、 稳 健 的 标准 误差 .分 位 数 回 归 、 内 生性 以 及 工具 变量 ， 

4.2 和 曼 斯 其 (Manski,1991) 在 一 般 情况 下 ,包括 了 由 4. 2 节 给 出 的 损失 函数 
形式 ,并 对 回归 给 出 了 优秀 的 讨论 。 

4.3 受 教育 事例 已 经 得 到 很 好 的 研究 。 安 格 里 斯 特 和 克 鲁 格 (Angrist and 
Kruger，1999) 以 及 卡 德 (Card，1999) 都 提供 了 最 近 综 述 。 

4.4 关于 最 小 二 乘 的 历史 ,参见 斯 带 格 勒 (Stigler，1986) 。 勒 让 德 (Legend- 
re) 在 1805 年 引进 了 这 一 方法 。 高 斯 (Gauss) 在 1810 年 把 最 小 二 乘法 应 用 于 具有 
正 态 分 布 误 差 项 的 线性 模型 ,同时 提出 计算 消 元 法 ,在 后 期 工作 中 ,他 又 提出 现在 
馈 称 为 高 斯 一 马尔 可 夫 (Gauss-Markov) 定 理 的 命题 。 在 1887 年 ,高 尔 顿 (Galton) 引 
入 回归 的 概念 , 意 指 在 家 庭 个 人 特性 遗传 背景 下 的 均值 回复 "13(meanrreversion) 。 
关于 应 用 于 穷人 的 和 福利 可 利用 性 的 早期 “现代 ?研究 ,参见 尤 尔 (Yule，1897 ) 。 
建立 在 线性 回归 模型 的 最 小 二 乘 估计 基础 上 的 统计 推断 是 由 费 希 尔 (Fisher) 显 著 
发 展 起 来 的 。 归 功 于 怀特 (White，1980a) 在 艾 克 (Eicker，1963) 早期 工作 基础 上 
创立 起 来 的 OLS 佑 计量 的 方差 矩阵 的 异 方差 一 致 性 估计 ,对 微观 经 济 计 量 学 的 统 
讨 推断 产生 深远 的 影响 ,同时 已 经 被 推广 到 许多 场合 。 

4.6 博 斯 科 维 元 (Boscovich) 在 1757 年 提出 最 小 绝对 偏差 估计 量 , 它 早 于 最 
小 二 乘法 ;参见 斯 蒂 格 勒 (Stigler，1986)。 肯 克 和 巴西 特 (Kecenker and Bassett， 
1978) 引 进 分 位 数 回 归 , 布 基 斯 基 (Buchinsky，1994) 对 此 给 出 一 个 综述 。 一 个 更 
基本 的 解释 由 肯 克 和 哈 洛 元 (Koenker and Hallock，2001) 给 出 。 

4. 7 在 联 立 方程 背景 下 ,为 了 确保 识别 , 赖 特 (Wright,1928) 最 早 使 用 了 工具 
变量 估计 。 为 外 一 个 经 常 引用 的 早期 文献 是 雷 厄 写 尔 (Reiersol，1941) 的 论文 ,他 
使 用 工具 变量 方法 控制 回归 元 的 测量 误差 。 陕 根 (Sargan，1958) 曾 经 给 出 早期 TV 
估计 经 由 的 处 理 。 斯 托 克 和 特 勒 比 (Stock and Trebbi,20037 则 提供 另外 一 些 早期 
文献 。 





[12 又 称 为 均值 复归 。 一 一 译 者 注 
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4.8 工具 变量 估计 在 经 济 计量 学 教材 中 得 到 了 阐述 ,这 些 教材 强调 代数 推 
导 , 而 缺少 必要 的 直观 性 。 该 方法 广泛 用 于 经 济 计量 学 ,因为 得 到 拥有 因果 人 解释 的 
估计 值 是 人 们 所 向 往 的 。 

4.9 弱 工 具 问 题 受 到 应 用 研究 者 辟 如 纳尔逊 和 施 塔 将 (Nelson and Startz， 
1990) 以 及 邦 德 等 人 (Bound et al. , 1995) 的 关注 。 在 理论 研究 上 ,许多 开创 性 工作 
是 由 纳 加 尔 CNagar，1959) 做 出 的 ,这 也 是 最 著名 的 工作 。 这 一 问题 前 弱 了 人 们 对 
IV 估计 的 热情 , 归 因 于 弱 工 具 的 小 样本 偏 倚 则 是 当今 非常 活 唉 的 研究 专题 。 一 些 
结果 均 假 定 iid 正 态 误差 项 ,并 把 分 析 限 制 在 对 单一 内 生 回 归 元 的 讨论 上 。 拖 德 等 
人 (Bound et al. ，2002) 的 综述 提供 许多 强调 弱 工 具 渐 近 特 性 的 文献 ,并 且 人 简要 考 
察 对 非 线性 模型 的 推广 。 哈 恩 和 袁 斯 曼 (Hahn and Hausman，2003b) 的 综述 阐述 
其 他 一 些 方 法 及 结果 ,这 些 内 容 我 们 在 这 里 没有 给 予 评 述 。 最 近 ,关于 标准 误差 侦 
倚 的 研究 工作 ,参见 邦 德 和 温 德 近 杰 (Bond and Windmeijier，2002) 。 对 于 深思 熟 
虑 的 应 用 ,参见 C. I 李 (C. I，Lee,2001) 。 


了 题 


4-1 考察 线性 回归 模型 y; 王 xB 十 u;, 其 中 ,x; 表示 非 随 机 回归 元 ,而 u; 具有 
零 均 值 , 且 有 如 下 关系 : 知 ;一 刀 则 ELwiwj 二 多; 若 |i 一 站 三 1, 则 ELwuiwuj jj 二 po ;大 
i 一 7 这 1,; 则 ELwuiw;j= 二 0 。 因 而 ,对 于 相 邻 观测 值 ,误差 是 相关 的 ,否则 误差 是 无 
关 的 。 以 和 矩阵 记号 表示 ,我 们 有 y 二 XB 十 u, 其 中 ,9 二 ELuw ]。 就 此 模型 而 言 , 利 
用 4.4 届 给 出 的 结果 解 党 下 述 问 题 。 

(a) 证 明 中 是 一 个 带 状 矩 阵 , 并 且 只 有 其 对 角 线 上 元 素 与 第 一 个 非 对 角 线 上 
的 元 素 为 非 零 项 ; 求 出 这 些 非 零 项 。 

(b) 利用 式 (4. 19) 求 出 Bos 的 渐 近 分 布 。 

(c) 阐述 如 何 求 出 不 依赖 于 未 知 参数 的 V[ Bors] 的 一 致 估计 。 

(d) 通常 OLS 输出 估计 值 2 (XX)"! 会 是 VL as] 的 一 致 估计 吗 ? 

(e) 这 里 ,VL los] 的 怀特 蜡 方差 性 稳健 估计 值 是 一 致 的 吗 ? 

4-2 假定 我 们 估计 模型 Yi = i ;其 中 ,wu; ~ 人 LO0， 六 |]。 

(a) 证 明 wx 的 OLS 佑 计量 可 简化 为 上 一 7。 

(b) 由 此 直接 求 出 jy 的 方差 一 致 估计 值 。 证 明 它 等 于 由 式 (4. 21) 给 出 的 方差 
的 怀特 异 方差 一 致 估计 值 。 

4 -3 假定 数据 生成 过 程 是 y; 二 Bzi 十 wiyw; 王 Xiei:， Zi 一 ANWNLO，] ,并 且 s 一 
NL0, 1]。 假 定数 据 对 于 不 同 i 是 独立 的 ,同时 zx; 与 s; 是 独立 的 。 注 意 , 和 ML0， 
呈 ] 的 前 四 阶 中 心 矩 分 别 是 0、e?、0 以 及 30。 

(a) 证 明 误 差 项 风 是 条 件 异 方差 的 。 

(b) 求 plim NIXX。( 提 示 : 求 ELz;*j, 并 应 用 大 数 定律 。) 

(c) 求 吕 二 Viu;], 其 中 ,期 望 是 关于 模型 中 所 有 随机 变量 。 

(d) 求 plim NX OX=lim NE[X QWX], 其 中 ,8 二 Diag[ VLwl|z;j]]。 

(e) 一 旦 忽略 潜在 异 方差 性 ,利用 前 面部 分 的 解答 ,给 出 VN(Bos 一 BB ) 的 极限 


分 布 中 方差 矩阵 的 默认 OLS 结果 (4. 22) 。 

(f) 者 考虑 任何 异 方差 性 ,给 出 wN(C8us 一 所 ) 极 限 分 布 中 的 方差 。 你 的 最 终 
解答 应 该 是 数值 的 。 

《g) 〈e) 部 分 与 (1 部 分 的 结果 差异 符合 你 的 先 验 信 和 念 吗 ? 

4-4 考察 具有 纯 量 回归 元 y; 二 Bx; 十 ui 的 线性 回归 模型 ,其 数据 对 于 不 辣 的 
i 是 独立 的 ,尽管 误差 可 能 是 条 件 异 方差 的 。 

(a) 证 明 (Bos 一 B= 二 (N713, x?)-IN-T15), zx; 

(b) 把 柯 尔 莫 哥 洛 夫 大 数 定 律 (定理 A. 8) 应 用 到 xz? 与 xiu; 的 平均 上 ,证 明 


fos 记 8。 并 述 对 xz; 与 w 的 数据 生成 过 程 做 出 的 任何 额外 假设 。 
Cc) 把 林 德 伯 格 一 利 维 中 心 极限 定理 (定理 A. 14) 应 用 到 zw, 的 均值 上 ,证 明 


N71Dras/N ”7DELw? x?]->N[0, 1]。 曾 述 对 z; 与 i 的 数据 生成 过 程 做 出 的 
任何 额外 假设 。 


(d) 利用 乘积 极限 正 态 分 布 法 则 (定理 A. 17) 证 明 ,(c) 部 分 草 含 着 N-1 za 十 
NL0, lim NT 2;ELwzi jj。 阐 述 对 zx; 与 u; 的 数据 生成 过 程 所 做 的 任何 假设 。 

(e) 把 利用 式 (2. 14) 得 出 的 结果 与 鲜 积 极限 正 态 法 则 (定理 A. 17) 结 合 起 来 ， 
求 出 8 的 极限 分 布 。 

4-5S 考察 线性 回归 模型 y 一 XG 十 u。 

(a) 求 出 使 Q(B) 二 nu Wu 最 小 化 的 公式 ,其 中 ,W 是 满 秩 的 。 [提示 :对 于 
f(xX) 二 f(g(X)) 二 f(z), 其中,z 二 g(x) ,关于 列 问 量 x 与 z 的 矩阵 微分 的 链 式 法 则 
是 9 f(x)/9x= (397 /3x) X (9 f(z) /92).] 

(b) 证 明知 W= 二 I, 则 可 简化 成 OLS 估计 量 。 

(c) 证 明 奋 W= 二 QQ !, 则 给 出 GLS 估计 量 。 

(d) 证 明 若 W 二 ZZZ) 1Z , 则 给 出 2SLS 估计 量 。 

4-6 考察 模型 y= 二 xB 十 u 的 IV 估计 (参见 4.8 节 ) ,利用 具有 满 秩 的 NXK 
阶 短 阵 世 在 恰好 识别 情况 下 的 工具 z。 

(a) 为 使 TV 估计 量 关 于 6 是 一 致 的 ,z 必须 满足 什么 根本 假设 ? 请 解释 。 

(b) 证 明 已 知 恰好 识别 ,由 式 (4. 53) 和 定义 的 2SLS 估计 量 简化 成 由 式 (4. 51) 给 
出 的 IV 佑 计量。 

(c) 给 出 由 于 OLS 的 非 一 致 性 而 需要 IV 估计 的 现实 例子 ,同时 设 定 合适 的 
工具 。 

4-7 [ 取 自 纳 尔 进 和 施 塔 蒋 (Nelson and Startz，1990)|] 考察 三 个 方程 的 模 
型 .y 二 Bx 十 u， XZ 二 Au 十 e，z 王 Ye 十 v, 其 中 ,ue、v 是 相互 独立 的 误差 ,而 且 都 是 iid 
正 态 的 ,均值 都 为 0, 其 方差 分 别 为 ol a? 和 。 

(a) 证 明 plim(pos 一 B) 二 X02/ GA?02 十 0?)。 

(b) 证 明 p2, 二 yo?2/GQ202 十 g2) (0 十 0?)， 

(c) 证明 Bry 二 my /ms 二 8B 十 maw /Ama 十 mw)， 其 中 ,m,, 二 2); z;y;。 

(d) 证 明 当 7y (或 者 p..) 一 0 时 ,Biv 一 8 一 1/4。 

(e) 证 明 当 mw 一 一 yo /A 时 ,Biv 一 8 一 So 。 
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(f) 当 工 具 不 好 时 ,上 述 两 个 结果 关于 Bwv 一 8 的 有 限 样本 偏 倚 矩 意味 着 什 
么 呢 ? 

4-8 选取 4.6.4 下 关于 健康 文 出 对 数 (y) 与 总 支出 对 数 (zx) 数据 的 50%% 随 
机 子 样本 。 

(a) 求 OLS 佑 计 值 ,同时 把 斜率 系数 的 通常 标准 误差 与 怀特 标准 误差 加 以 
比较 。 

(b) 求 中 位 数 回 归 估 计 值 ,同时 把 该 估计 值 与 OLS 估计 值 加 以 比较 。 

(c) 求 9 二 0. 25 与 go 一 0. 75 的 分 位 数 回 归 估 计 值 。 

(d) 利用 你 对 (Ca) 部 分 一 (c) 部 分 的 结果 ,重新 画图 4. 2。 

4-9 选取 4.9.6 市 关于 工资 与 受 教育 数据 的 50% 随 机 子 样本 ,重新 绘制 表 
4. 5, 并 提供 适当 的 解释 。 


O 
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5.1] 引 论 


非 线 性 估计 量 是 一 个 关于 因 变 量 的 非 线性 图 数 的 估计 量 。 除 了 第 4 章 已 经 阅 
述 的 线性 回归 模型 的 OLS 与 IV 估计 量 之 外 ,微观 经 济 计 量 学 中 使 用 的 大 部 分 估 
计量 都 是 非 线 性 估计 量 。 非 线性 形式 可 以 由 许多 方式 产生 。 条 件 均值 关于 参数 可 
以 是 非 线 性 的 。 即 使 条 件 均 值 关 于 参数 是 线性 的 ,损失 也 可 能 导致 非 线 性 估计 量 。 
虽然 最 初 模型 具有 关于 参数 为 线性 的 条 件 均 值 , 但 删 失 与 截取 同样 会 产生 非 线性 
估计 量 。 

我 们 在 这 里 阐述 非 线 性 估计 量 的 基本 统计 推断 结果 。 对 于 非 线 性 估计 量 来 
说 ,可 以 利用 的 小 样本 结果 是 非常 有 限 的 。 相 反 , 统 计 推 断 却 建立 在 应 用 于 大 样本 
的 渐 近 理论 基础 之 上 。 微 观 经 济 计 量 学 广泛 使 用 的 统计 量 都 是 一 致 的 且 渐 近 正 
态 的 。 

研究 生 引 论 课程 中 给 出 的 线性 回归 模型 研究 的 重要 内 容 与 渐 近 理论 有 了 两 点 刻 
盾 。 首 先 , 对 于 大 部 分 非 线 性 估计 量 来 说 ,由 于 不 存在 直接 公式 ,所 以 需要 一 些 可 
供 选 择 的 证 明 方法 。 其 次 , 渐 近 分 布 通常 可 能 在 最 弱 的 分 布 假 设 下 获得 。 这 种 违 
背 已 在 4.4 节 中 介绍 过 ,使 得 对 OLS 估计 量 进行 异 方差 性 稳健 推断 成 为 可 能 。 在 
这 种 较 弱 的 假设 下 ,由 简单 回归 方法 报告 的 默认 标准 误差 都 是 无 效 的 。 然 而 ,有 些 
内 容 需 要 小 心 层 重 , 因 为 这 些 最 弱 的 假设 能 导致 估计 量 上 日 喘 的 非 一 致 性 ,而 这 是 一 
个 更 加 根本 性 的 问题 。 

这 里 的 阐述 尽 可 能 是 解释 性 的 。 大 多 数 教 科 书 都 曾 述 依 概 率 分 布 和 依 分 布 收 
钙 的 定义 、 大 数 定律 (LLN) 以 及 中 心 极限 定理 (CLT) , 而 本 书 把 这 些 专题 内 容 归 人 
附录 A 中 。 应 用 研究 者 极 少 关注 对 一 致 性 与 浙 近 正 态 性 的 正式 证 明 。 然 而 ,常见 
情况 是 ,数据 应 用 与 最 新 的 或 复杂 的 统计 问题 遭遇 冲突 ,以 至 于 需要 了 阅读 最 近 的 经 
济 计 量 期 刊 文章 。 于 是 ,熟悉 一 致 性 与 渐 近 正 态 性 的 证 明 是 非常 有 益 的 ,尤其 是 在 
得 到 佑 计量 方差 矩阵 的 可 能 形式 之 前 获得 好 的 想法 。 

5. 2 节 提 供 一 个 重要 结果 的 概览 。5. 3 节 给 出 了 关于 最 大 化 或 最 小 化 任何 目 
标 函 数 的 极 值 估 计量 的 更 正式 研究 。 建 立 在 估计 方程 基础 上 的 佑 计量 将 在 5.4 节 
中 加 以 定义 并 阐述 。5. 5 节 人 简要 阐述 建立 在 稳健 标准 误差 基础 上 的 统计 推断 ,而 
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完整 研究 则 参考 第 7 章 。 极 大 似 然 估 计 与 准 极 大 似 然 估 计 将 在 5.6 节 和 5.7 节 加 


以 阐述 。 非 线性 最 小 二 乘 估计 则 在 5. 8 节 给 出 。5. 9 节 提 供 一 个 详细 的 例子 。 
其 他 的 重要 参数 估计 方法 , 即 广义 矩 方法 和 非 线性 工具 变量 法 ,将 在 第 6 章 单 
独 人 研究 。 


5.2 非 线 性 佑 计量 概览 


本 方 提供 非 线 性 售 计量 的 渐 近 性 质 的 一 个 概述 ,更 为 严 并 的 研究 则 由 5. 3 节 
给 出 ,而 且 本 下 将 阐述 对 非 线性 模型 中 的 回归 系数 加 以 解释 的 方法 。 对 于 理解 后 
面 几 章 要 前 述 的 横 截 面 和 面板 数据 模型 ,这 些 内 容 极为 基础 。 


5.2.1 当 松 回 好 倪 子 


介绍 非 线性 佑 计 的 一 种 特定 例子 是 有 益 的 。 这 里 ,我 们 考察 泊 松 回归 ,更 详细 
的 分 析 则 在 第 20 章 。 

泪 松 分 布 适合 于 因 变 量 y 仅仅 取 值 为 非 负 整数 值 0，1，2,… 的 情况 。 它 用 于 
对 事件 发 生 次 数 的 建 模 , 诸 如 厂商 申请 的 专利 数 以 及 个 体 就 诊 次 数 。 

具有 速率 参数 的 泊 松 密度 ,或 更 正式 地 讲 , 泊 松 概率 质量 函数 是 : 


f(y|2)=e WM’/y!, 3 一 0 2 
可 以 证 明 ,ELy] 一 人 上 且 VLyj]==X4。 
建立 一 个 回归 模型 , 即 对 参数 1 进行 设 定 , 以 使 具有 回归 元 x 以 及 参数 向 量 8 
的 特定 曙 数 随 个体 而 变化 。 通 常 , 泊 松 模型 设 定 为 
1 一 exp(xX GB) 
它 具 有 确保 均值 >0 的 优点 。 因 此 ,对 于 单个 观测 值 而 言 , 泊 松 回归 模型 (Poisson 
regression model) 的 密度 是 ， 
fly|x, 8)=e- ea) exp(x 3)7/y! (5, 1) 
考察 建立 在 样本 {(y;，xX;) ,i 一 1,…, NN) 基础 上 的 极 大 似 然 估 计 。 极 大 似 然 估 
计量 [maximum likelihood (ML) estimator] 是 针对 对 数 似 然 函 数 求 最 大 值 ( 参 见 
5.6 玫 )。 似 然 图 数 是 一 个 联合 密度 , 即 已 知 独立 观测 值 是 单个 密度 的 乘积 
由 .Fo 8) ,其 中 ,我 们 以 回归 元 x 为 条 件 。 那 么 ,对 数 似 然 函 数 是 乘积 的 对 
数 , 它 等 于 对 数 之 和 ,或 者 为 2;ln f(y |x ,9)。 
对 于 浊 松 密度 (5. 1) ,第 ;个 观测 值 的 对 数 密度 是 : 


In fCy;|x;,B)=—exp(x 8) yx BO— lny;! 
因此 , 泊 松 ML 估计 量 户 极 大 化 : 


Q(B) — HD {exp(x' 8) + yxiB — lIny,!) (5. 2) 


其 中 ,由 于 标 度 因子 是 1/N, 当 N 一 co 时 ,Qn(B) 仍 为 有 限 的 。 泊 松 ML 估计 量 是 
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一 阶 条 件 9QN(B)/96B1s 一 0 的 解 ,或 是 下 式 的 解 : 
六 (一 expodB)x1s 一 0 (5. 3) 


对 于 式 (5. 3) 中 的 8 来 说 ,不 存在 显 式 解 。 但 是 ,可 用 数值 方法 计算 8, 这 将 由 
第 10 章 给 出 。 不 过 ,本 章 只 关注 于 得 到 的 估计 值 G 的 统计 性 质 。 


5.2.2 有 侍 杂 最 


更 一 般 地 讲 ,我们 把 gqX1 维 参数 向 量 8 的 m 估 计量 (m-estimator)60 定义 为 对 
NN 个 子 函数 的 和 或 均值 的 目标 函数 求解 最 大 值 . 


QN(0) = HD gCyi,%,0) (5. 4) 


其 中 ,g(*) 表 示 纯 量 涌 数 ,y,; 表示 因 变 量 ,x; 表示 回归 元 回 量 ,并 且 本 节 的 结果 均 假 
定 , 对 于 不 同 的 i 都 是 独立 的 。 

为 了 简单 起 见 ,把 y; 写成 纯 量 形式 ,但 其 结果 可 被 推广 到 向 量 y; 上 ,从 而 包括 
多 变量 .面板 数据 以 及 方程 组 形式 。 用 N 标记 目标 函数 的 下 标 ,表示 目标 函数 依 
赖 于 样本 数据 。 本 书 上 自始至终 用 g 表示 9 的 维 数 。 注 意 , 这 里 的 9 还 用 于 表示 式 
(5. 4) 中 的 子 果 数 g 〈，)。 

一 旦 利用 对 应 q(y,x,9) 的 特定 函数 形式 ,许多 经 济 计量 学 中 的 估计 量 与 模型 
就 都 是 m 估计 量 。 重 要 的 例子 是 极 大 似 然 L 参见 后 面 的 式 (5. 39) 以 及 非 线 性 最 
小 二 乘法 (NLS)[ 参 见 后 面 的 式 (5. 67)]。 对 式 (5. 2) 求 极 大 值 的 泊 松 ML 估计 量 
是 式 (5. 4) 满 足 0 一 8 有 晶 g(y,xX;B) 二 一 exp(X BB) 十 yx 6 一 lny! 的 例子 ，。 

我 们 关注 估计 量 9 ,可 把 8 作为 与 之 相关 的 一 阶 条 件 aQv (9)/381; 二 0 的 解 ， 
或 者 是 等 价 的 下 式 的 解 : 


HD | 一 0 (5. 5) 
这 是 关于 个 未 知 数 的 g 个 方程 组 ,通常 6 没有 显 式 解 。 

m 估计 量 这 一 -术语 归功 于 休 伯 (Humber，1967), 它 是 极 大 似 然 估 计量 (maxi- 
mum likelihood estimator) 的 缩 略语 。 许 多 经 济 计量 学 作者 ,包括 雨 官 (Amermiya， 
1985 ,第 105 页 )、 格林 (Greene，2003, 第 461 页 ) 以 及 伍德 里 奇 (Wooldridge， 
2002, 第 344 页 ) ,都 把 m 估计 值 定 义 为 对 如 同 式 (5. 4) 的 一 些 项 之 和 求 最 优化 。 
而 其 他 一 些 作 者 ,包括 谢 尔 夫 林 (Serfling，1980) , 则 把 m 估计 量 定义 为 譬如 方程 
(5.5) 的 解 。 体 人 (Huber，1967) 曾 经 考虑 到 这 两 种 情况 , 休 人 (Huber，1981, 第 
43 页 ) 以 两 种 显 性 方式 定义 m 估计 量 。 在 本 书 中 ,我 们 称 前 者 为 m 估计 量 , 而 称 
后 者 为 估计 方程 估计 量 ( 将 在 5. 4 节 单 独 阐述 )。 


5.2.3 mm 仿 计量 的 浙 近 人 性质 


一 个 信 计 量 的 重要 而 令 人 满意 的 渐 近 性 质 是 , 佑 计量 是 一 致 的 ,而 且 具 有 至 少 
在 大 样本 下 实施 统计 推断 的 渐 近 分 布 。 
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确定 6 性质 的 第 一 步 是 ,准确 定义 6 所 要 估计 的 内 容 。 我 们 假定 存在 唯一 的 9 
值 , 记 为 0,, 称 为 真实 参数 值 (true parameter value) ,由 它 生 成 数据 。 这 个 识别 条 件 
(参见 2. 5 节 ) 既 需要 对 数据 生成 过 程 的 成 分 进行 正确 设 定 , 又 需要 此 种 表述 方式 
的 唯一 性 。 因 而 ,对 于 泪 松 例子 来 说 ,假定 数据 生成 过 程 是 具有 泊 松 参数 exp(x 6B。) 
的 ,同时 ,x 满足 xB = 二 xB 中 当 且 仅 当 BD=B8， 

对 真实 参数 值 而 言 , 带 有 下 标 0 的 正式 记号 广泛 应 用 于 第 5 章 一 第 8 章 。 出 
于 不 同 的 目的 ,可 以 对 8 取 许 多 不 同 值 ,但 我 们 关注 的 是 两 个 特殊 值 一 一 真 值 b。 
与 估计 值 6。 

即使 在 大 样本 中 ,估计 值 9 也 永远 不 能 准确 等 于 b ,这 源 于 样本 的 内 在 随机 
性 。 然 而 ,我 们 需要 8 关于 b。 是 一 致 的 (参见 附录 A 中 的 定义 A. 2) ,这 意味 着 6 


必须 依 概率 收敛 (conyerge in probability) 到 0,, 记 为 8 0, 

严格 建立 m 估计 量 的 一 致 性 是 困难 的 。 正 式 结果 由 5. 3. 2 节 给 出 ,而 有 用 的 
非 正 式 条 件 由 5. 3. 7 节 给 出 。ML 估计 量 与 NLS 估计 量 的 专门 化 研究 将 在 后 面 
儿 廊 给 出 。 

极限 正 态 分 布 

已 知 一 致 性 , 当 N 一 oo 时 ,估计 量 9 在 9。 处 具有 全 部 质量 的 分 布 。 对 于 OLS， 
我 们 为 了 获得 当 N 一 co 时 具有 非 退 化 分 布 的 随机 变量 ,通过 乘 以 VN 来 放大 或 重 
新 标 度 9。 那 么 ,统计 推断 被 处 理 成 假定 N 对 渐 近 理论 来 说 足够 大 ,以 便 提供 良好 
的 近似 ,但 又 不 要 太 大 ,以 使 8 在 6。 处 重 秋 。 


因此 ,我 们 考察 VN(8 一 bo) 的 特性 。 对 大 部 分 估计 量 来 说 ,其 具有 的 有 限 样 
本 分 布 太 复杂 ,以 致 不 能 用 于 推断 。 不 过 ,运用 渐 近 理论 ,可 获得 当 N 一 co 时 这 种 
分 布 的 极限 。 对 于 微观 经 济 计量 学 中 的 大 部 分 估计 量 来 说 ,这 一 极限 是 多 变量 正 
态 分 布 。 更 正式 地 讲 , VN (0 一 0,) 依 分 布 收敛 (converge in distribution) 到 多 变量 
正 态 分 布 , 依 分 布 收敛 已 在 附录 A 中 定义 。 

回顾 4. 4 节 ,OLS 估计 量 能 表述 为 : 

VN(B— Bo) 一 (Exx) RD 

而 其 极限 分 布 可 通过 右边 第 一 项 的 概率 极限 与 第 二 项 的 极限 正 态 分 布 来 获得 。 通 
过 类 似 方法 ,得 到 m 估计 量 的 极限 分 布 。 我 们 在 5. 3. 3 节 证 明 , 作 为 式 (5. 5) 的 解 
佑 计量 总 可 以 被 写成 


人 ] N 9 ;:(0) 
VN(O 一 各) 一 一 (N22 70” 








~” 1 AN 9g(0) 
网 A 0 | (5.6) 
其 中 , 对 于 6 与 00 之 间 的 某 个 9” 而 言 , 倘 春 二 阶 导数 及 其 逆 都 存在 , 9; (0) =qg(yi, 
xi ,0) 。 这 个 结果 可 通过 泰勒 级 数 展开 式 来 获得 。 

在 适当 假设 下 ,将 会 得 到 下 述 m 估计 量 的 极限 分 布 (limit distribution): 
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VN(6 —0,) >N[0, A-'B,A-!] (5. 7) 


其 中 ,A, : 表示 式 (5. 6) 右 边 第 一 项 的 概率 极限 ,并 假定 第 二 项 收敛 到 NL0, Bo ] 分 
布 。 表 5. 1 已 经 给 出 A 与 Bo 的 表达 式 。 


表 S$.1 m 估 计量 的 渐 近 性 质 


性 质 ” 代数 公式 

目标 函数 QNv(6) = N72,g(y;, x, 9) 对 0 求 最 大 值 
例子 ML: g; 二 In Foy |x, 0) 表示 对 数 密度 

NLS: 9 二 一 (y; 一 g(%，0))* 表示 负 的 误差 平方 
一 阶 条 件 3QN (0)/90 = NT >, 9g(y;, x, 0)/90|;=0 
一 致 性 plim Qw (9) 是 在 9 二 8 处 最 大 化 吗 ? 
一 致 性 ( 非 正式 ) EL9g(y;, %, 0)/90 |。 J 二 0 对 吗 ? 
极限 分 布 VN(6 — 0,) NLO, As' Bo As!] 


Au = plim N-' >) ,929g(0) /3090 |, 

B, = plim N™! >， ,99,/90 X 9g:/90 |。 
渐 近 分 布 8 一 NT6，N-IATBA-'] 

A=N' >) 9g(0)/9090 |; 

B= NT >), ,399/90 xX 09:/90 |; 


。 极限 分 布 方差 与 渐 近 方差 估计 值 都 是 稳健 的 三 明治 形式 ,该 形式 假定 对 于 不 同 的 ;是 独立 的 。 有 关 
其 他 方差 估计 ,参见 5. 5. 2 节 。 


渐 近 正 态 性 
为 了 从 极限 分 布 结果 (5. 7) 中 获得 6 的 分 布 ,用 VN 去 除 (5.7) 的 左边 ,用 N 去 
除 方 差 。 那 么 ,有 : 
0 一 AL VL[O | (5. 8) 
其 中 ,之 意味 着 “ 渐 近 分 布 ”(asymptotically distributed) ,并 用 VL6 ] 表 示 9 的 渐 近 
方差 (asymptotic variance) , 它 满足 : 
V[0 ]=N 'As BA ， (5. 9) 
对 渐 近 分 布 术语 的 完整 讨论 已 由 4. 4. 4 节 给 出 ,而 且 A. 6. 4 节 也 将 给 予 讨论 。 


结果 (5. 9) 依 赖 于 未 知 的 真实 参数 g 。 它 通过 计算 下 式 的 估计 渐 近 方差 (esti- 
mated asymptotic variance) 而 得 到 : 


V[I8] 一 NIA-IBA- (5. 10) 


其 中 ,A 与 B 表示 A 与 Bo 的 一 致 估计 值 。 
然而 ,许多 经 济 计 量 学 软件 的 默认 输出 经 常 使 用 较 简 单 的 估计 VL6 ] = 
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一 N 1A 1! ,这 仅 在 某 些 特殊 情况 下 是 有 效 的 。 进 一 步 的 讨论 ,包括 估计 As 与 B。 
的 各 种 方法 ,以 及 进行 假设 检验 ,可 参见 5. 5 节 。 

m 估计 值 的 两 个 重要 例子 是 ML 与 NLS 估计 量 。 命 题 5. 5 与 5. 6 分 别 给 出 
这 些 佑 计量 的 正式 结果 。 这 些 估 计量 的 较 简 单 的 渐 近 分 布 分 别 由 式 (5. 48) 与 式 
(5. 77) 给 出 。 

泊 松 ML 例子 

与 其 他 ML 估计 量 一 样 ,如 果 密 度 得 到 正确 设 定 , 那 么 泊 松 ML 估计 量 是 一 致 
的 。 然 而 ,把 5. 3.7 节 的 式 (5. 25) 应 用 到 式 (5. 3), 可 以 揭示 ,一 致 性 的 基本 条 件 确 
实 是 较 弱 的 条 件 ELy|xj 王 exp(x;Bo), 即 对 均值 正确 设 定 。 对 于 5. 7 节 详 述 的 基 
择 其 他 情况 ,ML 佑 计量 对 于 分 布 的 部 分 错误 设 定 的 类 似 稳 健 性 是 成 立 的 。 

对 于 当 松 ML 估计 量 来 说 ,3g(B)/9B 王 (y; 一 exp(x Bo))x, 从 而 得 到 : 


Ao=—plim NT’2),exp(x;/30)xx, 
与 
B, 一 plimn Ni,VLy;, | x |x:x; 


于 是 , 8 一 NN [9，N -IIA-IBA- ,其 中 ,A= 一 Niexp(xw D)xx ,而 也 一 
N -i2),(y;—exp(x: DG) )2XiXI。 

如 果 数 据 确实 服从 泊 松 分 布 ,那么 VL yjxj 二 E[y|xj 二 exp(x Bo), 由 于 A 一 
一 Bo ,导致 可 能 的 简化 ,因此 A。Bo。A。 二 一 A。，。 不 过 ,在 大 多 数 的 计数 数据 应 用 
中 ,有 VLy|xj 二 FLy|xj, 因 此 ,最 好 不 要 施加 这 一 约束 。 


5.2.4 非 线 性 回归 的 系 妆 解 滁 


人 秸 计 的 主要 目标 常 弟 是 实施 预测 ,而 不 是 去 检验 回归 元 的 统计 显著 性 。 

边际 效应 

关注 内 容 营 常 是 测算 边际 效应 , 即 当 回归 元 x 变化 一 个 单位 时 ,yy 的 条 件 均 值 
变动 。 

对 于 线性 回归 模型 来 说 ,ELy| 妇 =xG 理 含 着 3ELy|xj/ax 一 ,因而 可 把 系数 
作为 边际 而 直接 加 以 解释 。 对 于 非 线 性 回归 模型 来 说 ,这 种 解释 已 不 再 可 行 。 例 
如 ,ELy|z=exp(xXG), 那 么 aFELyjx]j/ax==exp(x 7 就 既是 参数 的 函数 ,又 是 回 
归 元 的 函数 ,边际 效应 的 大 小 不 仅 依 赖 于 B ,还 依赖 于 x。 

一 般 回 归 项 数 

对 于 一 般 回 归 畏 数 (general regression function ) : 


Ely|x|=g(x, 8) 


其 边际 效应 随 z 的 估计 值 而 变化 。 

一 种 习惯 做 法 是 ,阐述 由 表 5.2 给 出 的 三 个 边际 效应 佑 计 值 之 一 。 第 一 个 信 
计 值 是 对 所 有 个 体 的 边际 效应 进行 平均 。 第 二 个 估计 值 是 在 x 二 x 处 计算 边际 效 
应 。 第 三 个 估计 值 是 在 设 定 的 特征 点 x 二 x* 处 进行 计算 。 例 如 ,x* 可 表示 一 个 12 
年 学 龄 的 女性 等 。 也 可 以 考察 一 个 以 上 的 代表 性 个 体 。 
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表 5.2 边际 效应 :三 种 不 同 的 估计 值 


公式 描述 
N29ELy: | x]/az 所 有 个 体 的 平均 响应 
aE[L y|xj/9x|: 平均 个 体 的 响应 
3ELy|x]/ax| 满足 x 二 x* 个体 的 响应 


在 非 线 性 模型 中 ,这 三 个 测量 值 是 各 不 相间 的 。 然 而 ,在 线性 模型 中 ,它们 都 
等 于 8。 甚至 效应 的 符号 与 参数 符号 是 不 相关 的 ,对 某 些 x 值 来 说 ,3E[y|x]/9x， 
是 正 的 ;而 对 x 的 其 他 值 来 说 ,9ELy|xj/9xz; 则 为 负 的 。 在 解释 非 线 性 模型 的 系数 
时 ,必须 相当 慎重 。 

计算 机 程序 及 应 用 研究 经 常 报告 这 些 测量 值 中 的 第 二 个 。 在 边际 效应 数量 的 
层面 上 ,这 样 做 是 有 意义 的 。 但 是 ,政策 关注 通常 在 于 全 部 效应 , 即 第 一 个 测量 值 ， 
或 者 在 于 代表 性 个 体 或 群体 , 即 第 三 个 测量 值 。 第 一 个 测量 值 对 函数 形式 g(…) 的 
各 种 不 同 的 选取 会 有 相对 很 少 的 变动 ,而 其 他 两 个 测量 值 能 够 变动 得 相当 大 。 人 
们 还 可 利用 责 方 图 或 非 参 数 密度 估计 和 值 来 阐述 边际 效应 的 全 部 分 布 。 

单 指 标 模型 

考虑 单 指标 模型 ,譬如 设 定 为 : 

ELy|x 一 gCXO) (5. 11) 


对 回归 系数 进行 直接 解释 是 可 行 的 ,因此 ,通过 单 指标 x 8 数据 与 参数 , 均 可 进入 
非 线 性 函数 g(.)。 那 么 , 非 线 性 的 均值 是 回归 元 及 参数 的 线性 组 合 的 非 线 性 也 
数 。 就 单 指标 模型 而 言 , 可 利用 微分 法 (calculus methods) 进 行 计算 ,第 i 个 回归 元 
变化 的 条 件 均值 的 效应 为 : 


9ELyixj _ 


Or 
其 中 ,g (z) 二 9g(z)/9z。 由 此 可 得 ,由 于 : 


DELy|xj/azre Be 


所 以 系数 比值 给 出 了 回归 元 变化 所 引起 的 相对 效应 ,这 里 ,把 共同 因子 g(x 6 ) 消 
挤 。 因 此 ,如 果 B 是 Bi 的 2 倍 , 那 么 工 ; 变化 1 个 单位 的 效应 是 x 变化 1 个 单位 效 
应 的 2 倍 。 此 外 , 若 g(*) 是 单调 的 (monotonic) ,由 此 可 得 ,系数 的 符号 (sighs) 就 给 
出 了 所 有 可 能 x 的 效应 符号 。 

单 指标 模型 由 于 它们 解释 简单 而 具有 一 些 优点 。 许 多 标准 的 非 线 性 模型 , 璧 
如 logit、probit 以 及 Tobit 模型 ,都 是 单 指标 形式 。 此 外 ,对 g(*) 的 某 些 选择 ,允许 
给 出 为 外 的 解释 ,比如 本 广 稍 后 考虑 的 著名 指数 函数 以 及 14. 3. 4 布 将 分 析 的 逻辑 
斯 蒂 (logistic) cdf 。 

有 限 差 分 法 

我 们 强调 对 微分 法 的 使 用 。 然 而 ,有 限 差 分 法 (finite difference method) 是 通 


g (x B)B, 
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过 比较 当 zj; 增加 1 个 单位 时 的 条 件 均值 与 其 未 增加 时 的 条 件 均 值 来 计算 边际 效 
应 。 因 而 有 : 


EY xte ， BG)— g(x, 8) 


和 人 
其 中 ,e 表示 第 ; 个 元 素 值 为 1 、 其 他 元 素 值 为 0 的 向 量 。 

对 于 线性 模型 来 说 ,有 限 差 分 法 与 微分 法 会 导致 相同 的 估计 效应 , 因为 
AFLy|xj/Azx; 二 (x B+B) 一 x B= 二 B。 然 而 ,对 于 非 线 性 模型 来 说 ,这 两 种 方法 却 
给 出 不 同 的 边际 效应 估计 值 ,除非 x; 的 变化 是 无 穷 小 的 。 

微分 法 经 常用 于 分 析 连 续 回 归 元 ,而 有 限 差分 法 用 于 分 析 整 数值 回归 元 , 臂 如 
(0, 1) 指示 变量 ，。 

指数 条 件 均值 

举 一 个 例子 ,考察 对 指数 条 件 均值 函数 的 系数 解释 ,因而 有 E[y|xj 一 exp(x 6)。 
许多 计数 模型 与 持续 期 限 模型 都 使 用 指数 形式 。 

经 过 一 些 代 数 运 算 ,得 有 9E| y | x |/9x; 一 El y | X | xpb o 因此 参数 能 够 被 解释 
为 半 弹 性 的 (semirelasticities) , 即 x; 变化 1 个 单位 时 条 件 均值 增加 了 8; 倍 。 例 如 ， 
如 采 B 二 0.2, 那 么 x; 变化 1 个 单位 会 使 ELy|xj 增 加 0.2 售 , 即 增 加 20%，。 

相反 , 如果 使 用 有 限 差 分 法 ,那么 边际 效应 被 计算 成 AE[y |xj/Ax = 
exp(X OHB)—exp(x BF)=exp(x BF)(es 一 1)。 这 不 同 于 微分 法 结果 ,除非 8 很 
小 ,进而 外 二 1 十 8;。 例 如 ,如 果 8 二 0.2, 那 么 增加 22. 14%% ,而 不 是 20%， 


5.3 极 值 佑 计量 


本 广 内 容 可 以 用 作 微 观 经 济 计量 学 方面 的 高 级 研究 生 课程 。 本 请 曾 述 极 值 估 
计量 的 一 致 性 与 渐 近 正 态 性 的 一 些 重要 结果 , 极 值 估计 量 是 指 , 对 目标 函数 求 极 小 
值 或 极 大 值 这 类 非常 广泛 的 估计 量 。 其 表述 形式 非常 简洁 。 更 完整 的 认识 则 需要 
局 等 傅 究 , 壁 如 南 官 (Amemiya，1985), 这 里 只 是 研究 基础 ,或 者 可 在 纽 韦 和 麦克 
法 登 (Newey and McFadden，1994) 中 找到 。 


5.3.1 极 什 信 计 量 


对 于 单个 因 变 量 的 横 截 面 分 析 来 说 ,样本 来 自 N 个 观测 值 {(y;，x;)， i 一 
1…… 六 ), 即 因 变 量 y 与 回归 元 的 列 向 量 和 。 和 在 以 矩阵 记号 表示 , 则 样本 是 (y，X) ， 
其 中 ,y 表示 NX1 维 向 量 , 其 第 i 个 元 素 为 y; ,而 XX 表示 和 矩阵 ,其 第 i 行为 x;, 更 完 
整 的 定义 由 1. 6 节 给 出 。 : 

关注 焦点 是 估计 gq X 1 维 参 数 向 量 9 二 [9.,…,0,]。 值 称 为 真实 参数 值 
(true parameter value) , 它 是 生成 数据 过 程 中 8 的 特殊 值 ,该 生成 数据 的 过 程 称 为 
数据 生成 过 程 。 

我 们 考察 在 9E@ 上 对 随机 目标 函数 Qn (9) 二 Qn(y, X, 0) 求 极 大 值 的 估计 
量 8 ,其 中 ,为 了 记号 简单 起 见 ,Qv(6) 对 数据 的 依赖 性 仅仅 用 下 标 N 表示 。 把 这 
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种 佑 计量 称 为 极 值 估 计量 (extremum estimators) , 因为 它们 求解 了 极 大 值 和 极 小 值 
问题 。 
极 值 估计 量 可 以 是 全 局 极 大 值 (global maximum) ,因而 有 . 


a 


0 一 arg maxoce Qn (0) 《5. 12) 
通常 , 极 值 估计 量 是 一 个 局 部 极 大 值 ,被 计算 成 有 关 一 阶 条 件 : 
OQN (OO) | 
90 ,一 人 (5. 13) 


的 解 , 其 中 ,oQnv(6)7/38 表示 qgX1 维 列 向 量 ,第 个 元 素 为 9QN (9) /39:。 强 调 局 部 
极 大 值 的 原因 是 , 它 是 可 以 作为 渐 近 正 态 分 布 的 局 部 极 大 值 。 若 Qv (6) 是 全 局 四 
的 , 则 局 部 极 大 值 与 全 局 极 大 值 是 重合 的 。 

极 值 估 计量 有 两 个 重要 例子 。 对 于 本 章 所 考虑 的 m 估计 量 ,譬如 著名 的 ML 
与 NLS 估 计量 ,Qv(6) 是 样本 平均 ,比如 残 差 平方 均 。 对 于 广义 矩 方法 估计 量 来 
说 (参见 6.3 节 ),Qv(9) 是 样本 平均 值 的 二 次 形式 。 

为 了 具体 起 见 ,讨论 关注 单方 程 横 截 面 回 归 。 但 是 ,其 结果 是 相当 一 般 的 ,并 
可 应 用 到 基于 满足 本 节 给 出 性 质 的 最 优化 的 任何 估计 量 。 特 别 地 ,对 纯 量 因 变量 
不 存在 限制 ,而 一 些 学 者 用 z 代替 (wy，x)。 于 是 ,Qv(6) 等 于 Qv(Z, 98) 而 不 是 
CNCY，X，0) 。 


3.3.2 正式 一 致 人 性 年 理 


首先 ,我 们 考虑 2. 5 节 引 入 的 参数 识别 。 如 果 数 据 的 分 布 或 者 所 关注 分 布 的 
性 质 是 由 所 决定 的 ,而 g 的 任何 其 他 值 会 导致 不 同 分 布 ,从 直观 上 讲 ,参数 bu 是 
可 识别 的 。 例 如 ,在 线性 回归 中 ,我 们 需要 EL[y|Xj] 二 XBo 同时 XGO 一 X3G) , 当 且 
仅 当 00 = Ge ， 

舍 计 方法 可 以 不 用 识别 g 。 例 如 ,在 估计 方法 忽略 了 某 些 有 关 回 归 元 的 情况 
下 。 如 采取 具有 参数 6 一 6 的 数据 生成 过 程 目标 函数 的 概率 极限 在 6 一 b 处 达到 
唯一 极 大 值 ,那么 我 们 就 说 估计 方法 识别 gg 。 这 种 识别 条 件 是 渐 近 形式 。 有 限 样 
本 中 产生 的 实际 估计 问题 将 在 第 10 章 加 以 讨论 。 

一 致 性 以 下 述 方式 建立 起 来 。 当 N 一 oo 时 ,随机 目标 函数 Qv(6) , 即 m 估计 
情况 下 的 平均 值 , 依 概率 收敛 到 极限 函数 ,极限 函数 记 为 Qu (6) ,在 最 简单 情况 下 
是 非 随机 的 。 那 么 , 当 6 值 互 相 接近 时 ,Quv(6) 与 Q@,《0) 的 相对 应 的 (全 局 的 或 局 部 
的 ) 极 大 值 就 应 该 出 现 。 因 为 Qv(6) 的 极 大 值 是 由 8 定义 的 ,由 此 可 见 , 倘 若 0。 使 
得 Qu (9) 极 大 化 , 则 6 依 概率 收敛 到 9.。 

显然 ,一致 性 与 识别 是 紧密 相关 的 ,十 官 (Amemiya，1985 ,第 230 页 ) 曾 经 阐 
述 ,一 种 简单 方法 是 ,认为 识别 意 指 存 在 一 致 估计 量 。 进 一 步 讨 论 ,参见 纽 书 和 才 
死 法 登 (Newey and McFadden, 1994, 第 2 124 页 ) ,以 及 戴 斯 特 勒 和 塞 弗 (Deistler 
and Seifer，1978) 。 

这 种 方法 的 重要 应 用 包括 得 里 希 (Jennrich， 1969) 与 十 容 (Amemiya，1973)， 
雨 官 (Amemiya，1985) 以 及 纽 韦 和 表 克 法 登 (Newey and McFadden， 1994) 都 曾 阅 
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述 相当 一 般 的 定理 。 这 些 和 定理 需 要 几 个 假设 ,包括 光滑 性 (连续 性 ) 以 及 目标 函数 
导数 必须 存在 ,为 了 确保 Qv(6) 收 伍 到 QQ (6) 的 数据 生成 过 程 假设 ,还 要 求 Q, (6) 
在 0 二 处 极 大 化 。 各 种 不 同 的 一 致 性 定理 使 用 了 稍微 不 同 的 假设 。 

我 们 阐述 归功 于 雨 官 (Amemiya，1985) 的 两 个 一 致 性 定理 ,一 个 是 关于 全 局 
性 极 大 值 的 ,一 个 是 关于 局 部 极 大 值 的 。 雨 宫 定理 中 的 记号 已 被 修改 ,这 是 因为 雨 
写 (Amemiya，1985) 定 义 的 目标 哆 数 中 没有 壁 如 式 (5. 4) 中 的 正规 化 1/N 因子 。 

定理 5.1{( 全 局 极 大 值 的 一 致 性 ) [ 雨 宫 (Amemiya，1985， 定 理 4. 1. 1)] 做 
出 下 述 假 设 : 

(i) 参数 空间 @ 是 R? 的 一 个 紧 子 集 。 

(ii) 对 于 所 有 的 8 和 加 ,目标 函数 QN(9) 是 数据 的 可 测 函 数 ,同时 Qv(9) 在 0 EE 
© 内 是 连续 的 。 

(iii) Qnv(9) 依 概率 一 致 性 收 伍 到 非 随 机 函数 Qu (8) ,并 且 Qu (9) 在 9 达到 全 
局 唯一 极 大 值 。 


那么 ,估计 量 自 二 arg maxyceQv(0) 关 于 0 是 一 至 的 ,即今 0， 
条 件 ( 记 中 的 Qn (0) 依 概率 一 致 收 伍 (uniform convergence in probability) 到， 


QO)=plim QO (5. 14) 


意 指 supyce|Qw(0) 一 Q,(0)| 0， 

对 于 局 部 极 大 值 来 说 ,一 阶 导 数 必 须 存在 ,但 是 后 面 人 们 只 需 考 虑 Qn (90) 及 其 
在 6, 邻 域内 的 特性 。 

定理 $5.2 (局 部 极 大 值 的 一 致 性 ) [十 宫 (Amemiya，1985, 定 理 4. 1.2)] 做 
出 下 述 假 设 : 

(i) 参数 空间 图 是 尺 y 的 一 个 开 子 集 。 

(1) 对 于 所 有 的 0EQ,QN(0) 是 数据 的 可 测 函 数 , 同 时 0Qv (8)/90 存在 且 在 
gu 的 某 个 开 邻 域内 是 连续 的 。 

(iii) 在 0。 的 某 个 开 邻 域内 ,目标 函数 QN (0) 依 概率 一 致 收敛 到 Qu (9), 且 
Qo (9) 在 9 处 达到 唯一 局 部 极 大 值 。 

那么 ,9QN (98)/98 一 0 的 一 个 解 关 于 Oo 是 一 致 的 。 

使 用 定理 5. 2 的 一 个 例子 , 稍 后 由 5. 3. 4 节 给 出 。 

定理 5. 1 中 的 条 件 (D 允许 局 部 极 大 值 位 于 参数 空间 的 边界 上 ,而 定理 5.2 中 
的 局 部 极 大 值 必 须 位 于 参数 空间 的 内 部 。 定 理 5. 2 中 的 条 件 (ii) 还 草 含 着 Qn (9) 
在 @ 的 某 个 开 邻 域内 的 连续 性 ,而 0, 的 某 个 邻 域 NC(8,) 是 开 的 , 当 且 仅 当 存在 以 
bg 为 中 心 的 球 全 部 位 于 N (0) 中 。 在 这 两 个 定理 中 ,条 件 (ii) 是 根本 性 条 件 。 不 
论 是 Qu (90) 的 全 局 极 大 值 还 是 局 部 极 大 值 , 都 必须 在 9 一 0, 处 取得 。 条 件 (Giii) 的 第 
二 部 分 提供 @ 具有 有 意义 解释 及 唯一 性 的 识别 条 件 。 

对 于 局 部 极 大 值 来 说 ,如 果 仅 仅 存 在 一 个 局 部 极 大 值 ,那么 可 直接 进行 分 析 。 
于 是 ,通过 2Qv(b)7/381; 一 0 唯一 地 定义 了 9。 当 存在 多 于 一 个 局 部 极 大 值 时 ,该 
定理 直接 表明 ,的 确 有 一 个 局 部 极 大 值 是 一 致 的 ,但 无 法 保证 哪 一 个 是 一 致 的 。 在 
这 种 情况 下 , 最 好 是 考虑 全 局 极 大 值 ,并 应 用 定理 5. 1。 参 见 纽 韦 和 麦克 法 登 
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(Newey and McFadden,， 1994, 第 2 117 页 ) 的 讨论 。 

在 反映 对 目标 函数 Qn(0) 的 选择 即 模型 设 定 , 与 用 于 获得 式 (5. 14) 中 Qu (0) 
的 (y, 处) 真实 数据 生成 过 程 之 间 , 要 做 出 重要 区 分 。 对 于 某 些 数据 生成 过 程 来 说 ， 
全 计量 可 能 是 一 致 的 ,而 对 于 其 他 数据 生成 过 程 来 说 ,估计 量 可 能 是 不 一 致 的 。 在 
一 些 情况 下 ,例如 泊 松 ML 与 OLS 估计 量 ,倘若 条 件 均值 得 以 正确 设 定 , 一 致 性 在 
三 泛 数 据 生 成 过 程 下 就 会 产生 。 而 在 另 一 些 情况 下 ,一 致 性 则 需要 较 强 的 数据 生 
成 过 程 假 设 ,譬如 对 密度 的 正确 设 定 。 


5.3.3 请 近 正 术 糙 


有 无 渐 近 正 态 性 的 结果 ,通常 会 受 限 于 Qv (9) 的 局 部 极 大 值 。 那 么 ,b 是 式 
(5. 13) 的 解 ,一 般 来 讲 , 解 关于 9 是 非 线性 的 ,并 且 没 有 6 的 显 式 解 。 然 而 ,我 们 用 
9 的 线性 函数 代替 该 式 左边 ,只 是 要 使 用 泰勒 级 数 展开 式 , 然 后 解 出 6。 

绝 大 多 数 所 使 用 的 泰勒 定理 形式 是 具有 余 项 的 逼近 式 。 这 里 ,我 们 考察 准确 
的 一 阶 泰勒 展开 式 (exact first-order Taylor expansion) 。 对 于 可 微 函 数 f(.) 来 说 ， 
在 Z 与 xo 之 间 总 存在 点 x' ,使 得 : 


fx)=f xo) f Crt ) (xo) 
其 中 ,了 (x) 二 9f(x)/39x 表示 f(x) 的 导数 。 这 一 结果 也 称 为 中 值 定理 (mean value 


theorem) 。 
在 当前 背景 下 ,具体 应 用 时 要 进行 几 种 变动 。 纯 量 函 数 f(.，) 用 向 量 函 数 f(.) 
代替 , 纯 量 自 变 量 x、xo。 和 x!+ 则 用 向 量 8 .0, 以 及 0+ 代 替 。 那 么 有 : 


和 


f(0 ) =f(0, ) 十 一 + (6 一 bu) (5. 15) 


其 中 ,9f(0)/99 表示 矩阵 ,考察 8 与 9 之 间 的 某 个 未 知 97 的 形式 ,对 这 一 矩阵 的 

每 一 行 来 说 ,0 都 不 同 [ 参 见 纽 韦 和 麦克 法 登 (Newey and McFadden，1994， 

第 2 141 页 ) ]。 对 于 局 部 极限 估计 量 来 说 ,函数 f(0)= 二 3Qw (0)/98 已 经 是 一 阶 导 
dQN(0)| -3Qn (0) 

90 |; 30 | 393030 
其 中 ,9:Qn (0)/9890 表示 gq Xg 阶 矩 阵 ,其 第 (j, 上) 个 元 素 为 9:Qy (8)/30,30,;, 而 
b+ 表示 0 与 0 之 间 的 点 。 
一 阶 条 件 设 式 (5. 16) 的 左边 为 0。 设 右边 为 0, 并 解 出 (6 一 9 ) ,得 到 ， 


、 一 1 9 
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+ (0 一 6o) (5. 16) 





(5. 17) 
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其 中 ,我 们 用 v NN 重新 标 度 ,以 确保 非 退 化 极限 分 布 (下 面 将 进一步 讨论 )。 

结果 (5. 17) 提 供 了 9 的 一 个 解 。 它 对 8 的 数值 计算 并 没有 什么 用 处 ,因为 它 
依赖 于 8, 与 6 ,而 这 两 者 都 是 未 知 的 ,但 是 对 于 理论 分 析 来 说 , 它 却 是 有 用 的 。 
特别 地 ,如 果 可 以 建立 9 关于 9。 是 一 致 的 ,那么 未 知 91 依 概率 收敛 到 bo ,因为 它 


th 
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位 于 8 与 9。 之 间 且 6 依 概 率 收 化 到 0。 

结果 (5. 17) 以 一 种 类 似 于 获得 OLS 估计 量 极 限 分 布 的 形式 表示 VN(0 一 0。) 
(参见 5. 2. 3 节 )。 我 们 所 需 的 全 部 内 容 就 是 ,假定 式 (5. 17) 右 边 第 一 项 的 概率 分 
布 及 第 二 项 的 极限 正 态 分 布 。 

由 雨 言 (Amemiya，1985) 知 道 , 倘 和 奉 极 值 估 计量 满足 局 部 极 大 值 , 就 得 到 下 述 
定理 。 男 外 ,注意 到 ,十 宫 (Amemiya，1985) 营 定义 不 舍 有 正规 化 1/N 的 目标 咕 
数 。 而 且 , 雨 官 用 limE 而 不 是 plim 的 形式 定义 ho 与 Bo。 

定理 5.3( 局 部 极 大 值 的 极限 分 布 ) [和 雨 宫 (Amemiya，1985, 定理 4. 1. 3)| 
除了 前 面 关于 局 部 极 大 值 一 致 性 定理 的 假设 之 外 ,做 出 下 述 假设 : 

(i) 92Qn (98) /9938 存在 ,并 且 在 外 的 某 个 开 凸 邻 域内 是 连续 的 。 

(ii) 对 于 任何 序列 0+ ,3:QN(0) /383g |4+ 依 概率 收 人 证 到 有 限 非 奇异 和 矩阵; 

Ao=plim 9:Qn (0)/9030 | (5. 18) 
使 得 91> 0。。 


.. d 
C111) VNaQyn 0) /390| ,NLO, Bo |, 其 中 : 
Bo =plim[L NaQN (0) /30X a9QyN (0) /90 | J (5. 19) 
那么 , 极 值 估 计量 的 概率 分 布 (limit distribution of the extremum estimator) 是 : 


VC6 —0,) 全 MT0，ATIBATI] (5. 20) 


其 中 ,估计 量 8 表示 3QN(9)7/36 一 0 的 一 致 解 。 

这 个 证 明 可 通过 直接 把 极限 正 态 乘积 规则 (定理 A. 17) 应 用 到 式 (5. 17) 而 得 
到 。 注意 ,证 明 假 定 8 的 一 致 性 已 经 建立 。 由 表 5. 1 给 出 的 A 与 B 的 表达 式 是 针 
对 独立 i 的 Qn(0) 一 N >ia;(9) 情 况 的 特殊 化 。 

式 (5. 18) 与 式 (5. 19) 的 概率 极限 是 通过 (y, XX) 的 数据 生成 过 程 而 得 到 的 。 在 
一 些 实际 应 用 中 , 回归 元 被 假定 成 非 随机 的 ,同时 期 望 只 是 关于 y 的 。 而 在 另外 
一 些 情况 下 ,回归 元 则 被 处 理 成 随机 的 ,期 望 则 既 可 以 是 关于 y 的 ,又 可 以 是 关于 
X 的 。 


5.3.4 当 榴 ML 谷 订 和 量 的 请 近 人 性 质 例子 


在 具有 随机 回归 元 的 外 生 分 层 抽样 条 件 下 ,(y;，x;) 是 inid 的 ,没有 必要 假定 
y; 服从 泊 松 分 布 ,我 们 正式 证 明 泊 松 ML 估计 量 的 一 致 性 与 渐 近 正 态 分 性 。 

证 明 一 致 性 (consistency) 的 重要 一 步 是 获得 Q(B8) 二 plim Qn (B), 并 了 验证 
Q(B) 在 B 二 Bo 处 达到 极 大 值 。 对 于 式 (5.1) 定 义 的 QN CB) ,我 们 有 : 


QB) = plim NT >，( 一 espH yx — lny.!) 
= plim N 2),{— ELe*?] + ELyxB J — ELlny;!)) 
= plim N”! >) ,{— Efe*s]+ Ee*%x8]— ELlny:!)) 
第 二 个 等 式 假定 大 数 定律 可 应 用 于 每 一 项 。 由 于 (Cy;, 3) 为 inid, 所 以 能 应 用 马尔 
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可 夫 大 数 定 律 ( 定 理 A. 8) ,条 件 是 如 果 第 二 行 给 出 的 每 个 期 望 值 都 存在 ,并 且 对 于 
茶 个 6>0, 相 应 的 第 (1 十 9) 阶 绝对 和 矩 存 在 ,同时 定理 A. 8 给 出 的 边 条 件 得 到 满足 。 
例如 , 设 6s 王 1, 因此 ,可 使 用 二 阶 矩 。 第 三 行 需 要 数据 生成 过 程 使 得 EL[y |x] 二 
exp(x Bo) 的 假设 。 第 三 行 的 前 两 个 期 望 值 是 关于 x 的 ,而 x 是 随机 的 。 注 意 ， 
Q(B) 既 依赖 于 9, 又 依赖 于 Bo。。 一旦 对 B8 求 导 并 假定 极限 ,导数 与 期 望 可 交换 ， 
我 们 得 到 : 
人 ) 一 一 lim N71 > ,ELe*hx; | 二 limN7! >》 .ELe*% x; | 

其 中 ,HLlny!j 关 于 68 的 导数 为 0, 因 为 ELlny!] 依 赖 于 Go 即 数 据 生成 过 程 中 的 真实 
参数 值 ,但 不 依赖 于 B。 很 明显 ,在 8 二 Bo 处 ,3Q (8)/38 一 0 是 Q(B)/3B898' = 
一 lim N “1ELexp(xiB)x%xj 是 负 定 的 ,因此 ,Q (898) 在 8 二 6B。 处 达到 局 部 极 大 值 ， 
而 由 定理 5. 2 知 , 泊 松 ML 估计 量 是 一 致 的 。 由 于 这 里 QNy(B8) 是 全 局 四 的 ,所 以 
局 部 极 大 值 等 于 全 部 极 大 值 ,并 且 可 利用 定理 5. 1 建立 起 一 致 性 。 

就 泊 松 ML 估计 量 的 渐 近 正 态 性 而 言 , 对 于 局 与 8。 之 间 的 某 个 未 知 B+ , 利 
用 泊 松 ML 估计 量 一 阶 条 件 (5. 3) 的 准确 的 一 阶 泰勒 级 数 展开 式 , 得 到 : 


VN(B— Bo) =——[— ND), es xx NT (yeh)x (5.21) 
一 旦 对 回归 元 x 做 出 充分 假设 ,就 可 对 第 一 项 应 用 马尔 可 夫 大 数 定律 ,而 且 由 于 
入 Bu, 可 利用 B+ -> G。, 我 们 有 : 


一 人 一 2 ex6 xx 全 A, =— lmN 2 .ELe* x x | (5, 22) 


由 假设 知 , 式 (5. 21) 中 的 第 二 项 是 个 纯 量 回归 元 zx。 于 是 ,X 一 (y 一 exp(zpBu))z 具 
有 均值 E[ XX] 二 0, 因 为 EL[y|zxj 二 exp(xpo) 已 经 被 假定 为 一 致 的 ,而 方差 VLX] 盖 
EL[VLy|zx jx’]。 如 果 涉 及 (y 一 exp(xBo))x 的 第 (2 十 6) 阶 绝对 答 边 条 件 得 到 满足 ， 
就 应 用 李 雅 普 诺 夫 中 心 极限 定律 (定理 A. 15)。 对 满足 y 宇 0 的 这 个 例子 ,假定 y 
的 第 三 阶 矩 存在 , 即 6 二 1 并 且 是 有 界 的 ,就 足够 了 。 若 应 用 中 心 极限 定律 ,得 到 : 


>》 《ai et DT 


全 NM 0， 1 ] 
>, 了 LVLy [xi x 


ZN 一 





所 以 : 
和 7 一] 2 Cy; — eA, XT; 全 NTo， lm N 一 > ,也 LVLy zi]z] | 


这 里 假定 渐 近 方差 表达 式 中 的 极限 人 存在。 利用 克拉 软 一 话 尔 德 方法 (Cramer- 
Wold device) ,把 这 一 结果 推广 到 癌 量 情况 (参见 定理 A. 16) 。 那 么 : 


N YO) (y;—e* x NT[O, Bo = lim N >，ELVLy zxix] | (5. 23) 


因而 ,由 式 (5. 21) 得 到 VNCB 一 Bo) SN 0， A,!'BoA， ,其 中 ,A。o 由 式 (5. 22) 定 
义 , 而 Bo 则 由 式 (5. 23) 定 义 。 
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注意 到 ,对 这 个 特殊 的 例子 ,为 了 使 泊 松 ML 佑 计量 成 为 一 致 的 且 渐 近 正 态 
的 ,yx 不必 是 泊 松 分 布 。 泊 松 ML 估计 量 一 致 性 的 根本 假设 是 , dgp 使 得 
ELy|x 一 exp(x 3o)。 

对 于 渐 近 正 态 性 ,尽管 需要 另外 的 较 高 阶 窍 存在 的 假设 来 允许 使 用 LLN 与 
CLT, 但 根本 假设 却 是 VLy|xj] 存 在 。 如 果 事 实 上 VLy|x]=exp(Cx 9。) ,那么 A 一 


一 B, ,并 且 更 简单 地 变 成 VN 6- 6) 2 NI0, 一 ATI]， 这 个 ML 例子 的 结果 可 
推广 到 将 在 5. 7. 3 节 定 义 的 LEF 密度 类 。 


5.3.5 一 发 作 与 浙 近 正 态 姓 的 证 及 


定理 5. 1 一 定理 5. 3 中 做 出 的 一 些 假设 是 相当 一 般 的 ,而 且 不 必 在 每 个 实际 应 
用 中 都 成 立 。 这 些 假 设 需 要 以 类 似 前 面 泊 松 ML 估计 量 例子 的 方式 逐条 加 以 验 
证 。 这 里 ,我们 对 m 估计 量 拟定 一 个 详细 方案 。 

就 一 致 性 而 言 ,重要 的 一 步 是 得 出 QN (9) 的 概率 极限 。 这 可 通过 利用 LLN 来 
完成 ,因为 对 于 m 估计 量 ,QN(0) 是 平均 值 N 7 '2,q;(0)。dgp 上 的 各 种 不 同 假设 
会 导致 对 不 同 LLN 的 应 用 ,而 更 为 根本 的 是 ,会 得 到 不 同 的 Quo(9) 表 达 式 。 

渐 近 正 态 性 除了 需要 一 般 性 的 那些 假设 之 外 ,还 需要 dgp 的 假设 。 特 别 地 ,为 
了 获得 Au ,我 们 要 求 , dgp 的 假设 能 应 用 LLN, 并 且 可 以 应 用 CLT 获得 Bo。 

对 于 m 估计 量 , 当 抢 阵 92Qv(6)/a836 的 每 一 个 元 素 都 是 一 个 平均 值 时 ,因为 
Qn (90) 是 平均 值 ,LLN 可 能 验证 定理 5. 3 的 条 件 Gi)。 由 5. 3. 7 节 的 非 正 式 一 致 性 
条 件 (5. 24) 以 及 有 限 方 差 ELNaoQn(9)/36XxaQn(9)/ag | ] 可 知 , 由 于 
VN9Qn (0)/38|。 具 有 0 均值 ,所 以 CLT 可 能 会 产生 定理 5. 3 的 条 件 (iii) 。 

用 于 获得 估计 量 的 极限 分 布 的 特殊 CLT 与 LLN, 会 随 着 (y, X) 的 dgp 假设 而 
变化 。 在 所 有 情况 下 , 因 变 量 是 随机 的 。 然 而 ,回归 元 可 能 是 固定 的 或 随机 的 ,并 
且 在 后 一 种 情况 下 ,回归 元 会 表现 出 时 间 序 列 相 依 性 (time-series dependence)。 
这 些 问题 已 在 4. 4.7 节 对 OLS 加 以 考察 过 。 

普遍 的 微观 经 济 计量 学 假设 是 ,回归 元 对 不 同 的 观测 值 而 言 是 随机 且 独 立 的 ， 
这 对 于 全 国 调查 的 横 截 面 数 据 来 说 是 合情合理 的 。 对 于 简单 随机 抽样 来 说 ,数据 
(y;， Xi) 是 iid 的 ,进而 可 使 用 柯 尔 莫 哥 洛 夫 LLN 与 林 德 伯 格 一 利 维 CLT( 定 理 
A.8 与 定理 A. 14)。 更 进一步 地 ,在 简单 随机 抽样 (5. 18) 与 (5. 19) 的 条 件 下 ,可 简 
化 成 : 


dqg(y, xX, 0) 9g(y, x, 0) | 
a0 a0’ bo 


其 中 ,(y，x) 表 示 单 个 观测 值 , 期 望 是 关于 (>，x) 联 合 分 布 的 。 在 许多 背景 下 ,都 
使 用 这 种 较 简单 的 记号 。 


“ggCy，X，0) 
9898/ 





Au=E | 





B。 一 下 | 
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用 马尔 可 夫 LLN 与 李 雅 普 诺 夫 CLT( 定 理 A. 9 与 定理 A. 15)。 这 除了 需要 在 iid 
情况 下 做 出 那些 假设 之 外 ,还 需要 和 矩 假设 。 在 随机 回归 元 情况 下 ,期 望 是 关于 
(y，X) 联 合 分 布 的 ,而 在 固定 回归 元 情况 下 ,例如 在 可 控 实验 中 ,对 x 水 平 加 以 设 
置 , 式 (5. 18) 与 式 (5. 19) 中 的 期 望 是 仅仅 关于 y 的 。 

对 时 间 序 列 而 言 ,假定 回归 元 是 随机 的 ,并 且 假 定 回归 元 对 不 同 观 测 值 是 相关 
的 ,以便 得 到 容纳 请 后 因 变 量 而 必需 的 这 一 框架 。 哈 密 尔 顿 (Hamilton，1994) 关 
注 这 一 情 次 ,怀特 (White，2001a) 对 此 做 过 大 量 研究 。 最 简单 的 处 理 是 把 随机 变 
量 (y, x) 限 制 成 平稳 分 布 。 然 而 ,如 果 数 据 是 非 平 稳 的 并 具有 单位 根 ,那么 收 钱 速 
率 可 能 不 再 是 VN ,并 且 极 限 分 布 可 能 是 非 正 态 的 。 

然而 ,尽管 这 些 重要 概念 与 理论 上 的 差异 是 针对 (y，x) 随机 特性 而 言 的 ,但 对 
于 横 鹤 面 回归 来 说 ,最 终 的 极限 定理 通常 源 于 定理 5. 3 给 出 的 一 般 形 式 。 


S. 3.6 讨论 


式 (5. 20) 中 的 方差 矩阵 形式 被 称 为 三 明治 形式 (sandwich form) ,因为 A。 与 
A。 之 间 夹 着 B。。 由 4. 4.4 节 引进 的 三 明治 形式 ,将 在 5. 5. 2 节 以 更 详细 的 方式 
加 以 讨论 。 

渐 近 结果 能 够 被 推广 到 非 一 致 估计 量 上 。 和 那么 , 若 % 被 伪 真 值 8 (pseudo- 
true value) 所 代 冬 ,这 里 伪 真 值 被 定义 成 使 Q& (0) 取 局 部 极 大 值 的 那个 8 和 值 。 这 将 
在 5.7. 1 区 以 更 详细 的 方式 对 准 ML 估计 加 以 考察 。 然 而 ,在 大 多 数 情 况 下 ,估计 
量 是 一 致 的 ,而 在 稍 后 一 些 章节 中 ,为 了 简化 记号 ,经 常 把 下 标 0 省 略 。 

在 前 面 的 结果 中 ,目标 函数 Qn (6) 最 初 是 通过 1/N 正规 化 加 以 定义 的 ,于 是 
Qn (09) 的 一 阶 导数 用 VN 正规 化 ,而 二 阶 导数 没有 被 正规 化 ,导致 了 VN 一 致 估计 
量 。 在 一 些 情况 下 ,可 能 需要 可 供 选 择 的 其 他 正规 化 ,最 著名 的 是 具有 非 平稳 趋势 
的 时 间 序 列 。 | 

一 些 结果 假定 ,Qn (98) 是 连续 可 微 的 函数 。 这 就 排除 了 诸如 最 小 绝对 偏差 等 
一 些 估 计量 ,因为 QN(0) 二 N12;1y; 一 xiB|。 在 这 种 情况 下 ,一 种 继续 研究 的 方 


法 是 ,获得 可 微 通 近 函数 Q; (6) ,使 得 Qi (6) 一 Qn (9) 一 0, 同 时 把 前 面 的 定理 应 
用 到 Qxw (0) 上 。 

获得 极限 分 布 的 重要 步骤 是 ,使 用 泰勒 级 数 展开 式 进 行 线性 化 。 泰 勒 级 数 展 
开 式 对 函数 的 全 局 逼近 的 效果 欠 佳 。 由 于 一 致 性 草 含 着 大 样本 量 6 接近 于 b。 的 
展开 点 ,所 以 在 统计 应 用 中 , 当 逼 近 渐 近 为 局 部 通 近 时 , 它们 会 发 挥 很 好 的 作用 。 
利用 埃 奇 沃 斯 展开 式 ( 参 见 11. 4. 3 节 ) ,可 能 得 到 更 精致 的 渐 近 理论 。 自 助 法 ( 参 
见 第 11 章 ) 是 经 验 研究 中 实施 埃 奇 沃 斯 展开 式 的 一 种 方法 ， 


5.3.7 王 仿 芽 量 一 私 烽 的 非 正 式 方 弯 


对 实践 者 来 说 ,与 定理 5. 1 或 定理 5. 2 关于 一 致 性 的 正式 证 明 相 比 , 定 理 5. 3 
的 极限 正 态 结果 更 容易 证 明 。 这 里 ,我 们 阐述 一 种 非 正 式 方法 ,确定 使 m 个 计量 
成 为 一 致 的 所 需 分 布 假设 的 性 质 及 作用 。 


微观 经 济 计 量 学 


= 


对 作为 局 部 极 大 值 的 m 估计 量 来 说 ,一 阶 条 件 (5. 4) 蕴 含 着 对 6 的 选取 ,以 使 
9gi:(0)/901; 的 平均 值 等 于 0。 从 直观 上 讲 , 得 到 关于 0, 的 一 致 估计 量 的 必要 条 件 
是 ,9g(0)/96|。 的 平均 值 极 限 趋 于 0, 或者: 


gaQnv(9)| _ 1 1 fog(0) 
lim 39 | = limN 2 El 0 


其 中 ,第 一 个 等 式 需 要 应 用 大 数 定理 的 假设 ,并 且 式 (5. 24) 中 的 期 望 值 是 针对 
《y，X) 总 体 dgp 而 取 的 。 倘 若 任何 偏离 零 的 情况 都 会 随 N 一 0 而 消失 , 则 极限 就 
并 不 要 求 准 确 的 等 式 成 立 。 例 如 ,如 果 期 望 等 于 1/N ,那么 一 致 性 应 该 成 立 。 条 件 
(5. 24) 为 实践 者 提供 一 种 非常 有 用 的 检查 法 。 一 致 性 的 非 正 式 方 法 (informal 
approach to consistency) 是 考察 估计 量 9 的 一 阶 条 件 , 同 时 确定 在 9 二 6, 处 进行 计 
算 时 这 些 极限 的 期 望 值 是 否 为 零 。 

甚至 不 太 正 式 地 讲 , 如 果 我 们 考察 和 式 中 的 分 量 , 那 么 一 致 性 的 根本 条 件 
(essential condition) 是 ,一 般 观 测 值 是 否 有 : 


El9g(0)/90|, |=0 (5. 25) 


这 个 条 件 为 实践 者 提供 非常 有 用 的 指南 。 然 而 , 它 既 不 是 必要 条 件 , 也 不 是 充分 条 
件 。 如 果 式 (5. 25) 中 的 期 望 等 于 1/N ,那么 还 有 一 种 可 能 , 式 (5. 24) 概 率 极限 等 于 
0, 因 此 ,条 件 (5. 25) 不 是 必要 的 。 为 了 认识 到 它 不 是 充分 的 ,考察 利用 仅 有 一 个 观 
测 值 ,比如 说 第 一 个 观测 值 y ,去 估计 具有 均值 yw 的 iid 的 y。 那 么 ,jw 是 y1 一 = 二 0 


的 解 ,并 且 式 (5. 25) 得 以 满足 。 但 是 ,很 明显 , y, 六 uo, 因为 单个 观测 值 y 具有 不 
趋 于 0 的 方差 。 问 题 在 于 , 式 (5. 24) 中 的 plim 不 等 于 limE。 对 一 致 性 的 正式 证 
明 ,需要 使 用 譬如 定理 5. 1 或 定理 5. 2 之 类 的 定理 ， 

对 于 泊 松 回归 , 式 (5. 25? 的 使 用 揭示 了 ,一 致 性 的 根本 条 件 是 对 y|x 的 条 件 均 
值 的 正确 设 定 (参见 5. 2. 3 节 )。 类 似 地 ,OLS 估计 量 是 N-1Zx(Cyx 一 XG) 一 0 的 
解 , 因 此 ,由 式 (5. 25) ,一 致 性 本 质 上 要 求 ELx(Cy 一 x B66)j 二 0。 如 同 4.7 节 给 出 的 
那样 ,假如 ELy|xj 关 x G。, 这 个 条 件 就 失效 ,这 种 情况 的 发 生 有 许多 原因 。 在 另 一 
些 例子 中 ,用 式 (5. 25) 表 示 ,与 要 求 条 件 均值 正确 设 定 相 比 ,一 致 性 则 要 求 更 多 的 
参数 假设 。 

为 了 把 式 (5. 24) 的 使 用 与 定理 5. 2 的 条 件 (iii) 连 接 起 来 ,注意 下 述 内 容 : 


3Qo(0) /930=0 [定理 5.2 的 条 件 (iii)] 
=> 9(plim Qn (0))/90=0 [由 Qo(0) 的 定义 ] 
-> 9(lim E[QNn (0) 1 ))/38 一 0 (因为 LLN 二 Q@% 一 plim Qv 一 limELQN]) 
-> lim 9E[ Qn (0) Jj/30=0 《极限 与 微分 交换 ) 
一 limELoQNv(0)/30] 一 0 (微分 与 期 望 奖 换 ) 


最 后 的 等 式 是 非 正 式 条 件 (5. 24)。 然 而 ,为 了 获得 这 一 结果 ,需要 另外 的 假 
设 , 包 括 对 局 部 极 大 值 的 限制 .应 用 大 数 定 律 .极限 与 微分 的 可 交换 性 ,以 及 微分 与 
期 望 ( 即 积分 ) 的 可 交换 性 。 在 纯 量 情况 下 ,微分 与 极限 进行 交换 的 充分 条 件 是 ， 
lim -oCE[LQn (69 十) 一 ELQwn (90) ])/h 二 4ELQN (0)]/q0 均匀 地 位 于 9 中 。 








,|= 0 (5. 24) 
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5.4 合计 方程 


由 5. 3. 3 市 给 出 的 极限 分 布 的 推导 ,能 从 局 部 计 值 估计 量 推广 到 被 定义 为 估 
计 方 程 解 的 估计 量 上 ,这 里 的 估计 方程 被 设置 成 平均 值 为 0。 第 6 章 将 给 出 几 个 
例子 。 


S. 4. 1 信 计 方程 估计 晶 
设 把 9 定义 为 以 下 g 个 估计 方程 (estimating equations) 组 的 解 : 


NN 
hv(6) = HO hey, x, 0)—0 (5. 26) 
;一 ] 


其 中 ,h(,) 表 示 gX1 维 向 量 , 并 假定 对 于 不 同 的 i, 它 是 独立 的 。 在 稍 后 的 5. 4. 2 


由 于 选取 6 以 使 h(y, x, 6 ) 的 样本 平均 值 等 于 0, 所 以 我 们 希望 6 忆 90, 条 件 
是 hy, XX， 0 ) 的 平均 值 极限 趋 于 0, 即 plim h、 (0 ) 一 0。 如 果 要 应 用 LLN ,就 要 
求 limE[hw (8。)] 二 0, 或 者 大 致 地 讲 , 对 于 第 i 个 观测 值 ,有 : 


E[ hy;, x;, 00) |=—0 (5. 27) 


最 容易 建立 一 致 性 的 方法 是 ,把 式 (5. 26) 推 性 成 m 估 计量 的 一 阶 条 件 。 

假定 具有 一 致 性 ,估计 方程 估计 量 (Cestimating equations estimator) 的 极限 分 布 
能 用 与 5. 3. 3 节 关 于 极 值 佑 计量 相同 的 方式 来 获得 。 在 8 后 附近 取 hw (90) 的 准确 
一 阶 泰勒 级 数 展 开 式 ,如 同 式 (5. 15) 具 有 fb) 一 hx(9) 一 样 , 并 令 等 式 右边 为 0, 然 
后 求解 。 那 么 有 : 





~ dh 
VN(O 一 9) 一 一 





一 1 
VCeo) (5. 28) 
0 


这 就 得 到 下 述 定 理 。 z 

定理 5. 4( 估 计 方 程 估 计量 的 极限 分 布 ) 假定 求解 式 (5. 16) 的 估计 方程 估计 
量 关于 人 是 一 致 的 ,同时 做 出 下 面 假 设 : 

(i) gbhN(6)/ 30 存在 , 且 在 bo 的 某 个 开 凸 邻 域内 是 连续 的 。 

(ii) 对 于 使 得 8+ 全 gu 的 任何 序列 8+ ,9hw (09)/ 98' | 依 概 率 收 敛 到 有 限 非 
奇异 矩阵 : 


9h~n (8) 


N 2 全 
0 | plim 3 





Au = plim (5. 29) 


内 
Ciii) VNhn (0,) -~ NI[0, Bo。 |, 其 中 : 


B, 一 plim Nh» (0,)hn (06) -一 plim 六 > hui(g)h (00) 《5， 30 ) 
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屠 么 ,估计 方程 估计 量 的 极限 分 布 (jimit distribution of the estimating equations 
estimator) 且 ， 


< d Pi 
VN(O0 —0,)—>AMN[0, AI BA !] (5. 31) 


其 中 ,不 像 极 值 估 计量 那样 , 失 阵 Au 可 能 不 是 对 称 的 ,因为 它 不 再 是 海 赛 矩 阵 。 
这 个 定理 可 通过 对 雨 宫 定 理 5. 3 加 以 改进 而 得 到 证 明 。 注 意 ,定理 5. 4 假定 
一 致 性 已 经 建立 起 来 。 
区 达 姆 毕 (Godambe,1960) 曾 经 证 明 , 对 于 以 回归 元 为 条 件 的 分 析 来 说 ,最 有 
效 的 估计 方程 估计 量 是 设 h; (6) = 二 31n f(y;|x;，0)/930。 从 而 , 式 (5. 26) 是 ML 估 
计量 的 一 阶 条 件 。 


S. 4. 2 ”类 此 原理 


为 了 激发 们 计量 ,类 比 原 理 使 用 了 总 体 条 件 。 曼 斯 基 (Manski，1988a) 强 调 了 
失 比 原理 作为 佑 计 的 统一 论题 的 重要 性 。 曼 斯 基 (Manski，1988a, 第 6 页 ) 曾 提供 
源 目 戈 德 们 格 (CGoldberger，1968, 第 4 页 ) 的 下 述 引 文 : 


估计 类 比 原理 (analogy principle).……- 认为 ,总 体 参 数 可 通过 样本 统计 量 
来 估计 ,样本 统计 量 在 样本 中 具有 的 性 质 与 总 体 中 参数 具有 的 性 质 一 样 。 


类 比 佑 计量 (analogue estimators) 是 指 , 通 过 应 用 类 比 原 理 而 获得 的 估计 量 。 
总 体 筷 条 件 (population moment conditions) 建议 ,把 估计 量 作 为 相应 样本 和 矩 (sam- 
ple moment condition) 的 解 

4.2 市 已 经 给 出 应 用 类 比 原理 的 极 值 值 计 量 的 例子 。 例 如 ,如 果 预 测 目 的 是 
对 总 体 中 的 期 望 损失 求 极 小 值 , 并 可 使 用 误差 平方 损失 ,那么 回归 参数 8 可 通过 对 
样本 误差 平方 和 求 极 小 值 而 得 以 估计 。 

矩 方法 佑 计量 也 是 一 个 例子 。 例 如 ,在 iid 情况 下 ,如 果 总 体 中 E[y; 一 x 二 0， 
那么 我 们 通过 求解 相应 的 样本 矩 条 件 N12;(y; 一 二 0 而 得 到 估计 量 , 从 而 得 出 
样本 均值 上 一 7。 

估计 方程 估计 量 可 能 被 认为 是 类 比 估 计量 。 如 果 式 (5. 27) 在 总 体 中 成 立 , 那 
么 8 可 通过 求解 相应 的 样本 和 矩 条 件 (5. 26) 加 以 估计 。 

在 微观 经 济 计 量 学 中 ,广泛 使 用 佑 计 方 程 人 计量。 有 关 理 论 被 归 9 人 广义 矩 方 
法 (generalized method of moments) , 这 将 在 下 一 章 加 以 阐述 ,广义 矩 方法 是 针对 比 
参数 更 广泛 的 矩 条 件 加 以 扩展 的 方法 。 在 应 用 统计 学 中 , 此 方法 用 于 广义 估计 方 


程 (generalized estimating equations) 。 


5.5 统计 推断 


对 假设 检验 和 置信 区 间 的 详细 研究 将 由 第 7 章 给 出 。 这 里 ,我 们 概括 如 何 利 
用 最 普遍 方法 检验 线性 约束 ,包括 排除 性 约束 .对 佑 计量 可 能 是 非 线 性 的 沃 尔 德 检 
验 。 右 使 用 渐 近 理论 , 则 正式 结果 会 导致 卡 方 分 布 及 正 态 分 布 , 而 不 是 正 态 性 条 件 
下 源 自 线性 回归 的 小 样本 下 分 布 与 1 分 布 。 男 外 ,存在 几 种 一 致 估计 极 值 估 计量 
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方差 矩阵 的 方法 ,进而 得 出 标准 误差 有关 检 验 的 统计 量 以 及 可 供 选择 的 之 值 。 
5.5.1 线性 约束 的 话 尔 德 优 充 检 委 


考察 对 疡 个 线性 独立 约束 璧 如 五 。 对 到。 进行 检验 ,其 中 : 


Ho,: RD 一 一 (0 
HH.,: ROo 一 rr 天 0 


R 表示 hXg 阶 常数 矩阵 ,r 表示 hX1 维和 常数 向 量 。 例 如 ,如 果 0 二 [9, ， 2， 由], 那 
人 么 检验 是 否 存 在 0 一 200 一 2, 其 中 ,及 一 | 1 ， 一 ]， 0 |] ,而 Tr 一 一 4。 
如 果 R6 一 r 即 Re 一 r 的 样本 估计 值 显 著 地 不 为 0, 那么 沃 尔 德 检验 就 拒绝 


H,。。 这 需要 R6 一 r 的 分 布 知 识 。 假定 VNG 一 6,) SW [0, C,], 其 中 ,由 式 
(5. 20) 知 ,Co 一 A BoA。 。 那 么 ,有 : 


0 一 人 [6 ,NICo] 
因此 ,在 五, 为 真 的 条 件 下 ,线性 组 合 满足 : 


RO 一 r ~AM[0,RCN TIC JR 


其 中 ,均值 为 0, 因为 在 Ho 为 真 的 条 件 下 ,R6。, 一 r= 二 0。 

卡 方 检验 

一 种 方便 的 做 法 是 通过 取 二 次 形式 ,从 多 元 正 态 分 布 灾 成 卡 方 分 布 , 这 网 产 生 
了 沃 尔 德 统计 量 (Wald statistics ) 。 


| W= (RO —r) RON- OR RO —r) SX h) (5. 32) 
在 日 , 为 真 的 条 件 下 ,RC(N -1'C,)R 在 线性 独立 约束 的 假设 下 是 满 秩 h 的 ,并 且 C 


是 CG。 的 一 致 估计 量 。 大 的 W 值 会 时 致 拒绝， 并 且 在 a 水 平时 ,车 WX (4), 则 拒 
绝 Ho ,否则 就 不 拒绝 。 

然而 ,实践 者 时 常 使 用 下 统计 量 F 王 W/h。 于 是 ,推断 建立 在 FF(h，N 一 g) 分 
布 的 基础 之 上 , 据 此 希望 ,这 会 提供 较 好 的 有 限 样本 逼近。 注意 , 当 N 一 co 时 ,hh 来 
以 下 (j，N) 分 布 收 敛 于 X ()。 

在 获得 式 (5. 32) 时 ,用 CC 代 替 Co 在 渐 近 形式 上 并 没有 什么 差异 ,但 在 有 限 样 
本 中 ,不 同 的 C 将 导致 W 的 各 种 不 同 值 。 在 经 典 线性 回归 情况 下 , 这 一 步骤 对 应 
于 用 ?代替 到 。 如 果 误 差 服 从 正 态 分 布 , 那 么 W/h 确实 服从 下 分 布 (参见 7.2.1 
节 )。 

单 系数 检验 

关注 焦点 经 常 是 对 单个 系数 不 同 于 0 进行 检验 ,比如 说 第 7 个 系数 。 于 是 ， 
RO 一 r 一 0; 且 W 二 贸 /(N-16; ) ,其 中 ,6 表示 C 中 的 第 j 个 对 角 元 素 。 在 Ho。 下， 
当 对 W 取 和 平方 根 时 ,得 到 : 

0; 
1 一 se 0 人 Nro, 1 | (5. 33) 


微观 经 济 计量 等 
其 中 ,se(0) 二 VN 16; 表示 9; 的 渐 近 标准 误差 。 大 的 上 值 会 导致 拒绝 ,而 且 与 W 
不 同 的 是 ,统计 量 上 能 用 于 单 侧 检 验 。 

正式 地 讲 , VW 是 渐 近 z 统计 量 , 但 是 ,我 们 用 记号 ;表示 它 , 就 得 出 通常 的 “1 
统计 量 ”, 即 估计 值 被 其 标准 误差 去 除 。 在 有 限 样本 下 ,一 些 统计 软件 包 使 用 标准 
正 态 分 布 ,而 另 一 些 统计 软件 包 使 用 1 分布 来 计算 临界 值 .p 值 以 及 置信 区 间 。 在 
有 限 样 本 下 ,这 两 者 都 不 是 完全 正确 的 ,除了 在 误差 被 假定 成 正 态 分 布 的 线性 回归 
这 一 -极为 特殊 的 情况 外 ,i 分布 是 准确 的 。 在 无 限 大 样本 下 ,这 两 者 作为 上 分 布 会 
产生 相同 结果 ,那么 对 正 态 分 布 而 言 , 则 会 失败 。 


5. 5.2 方 老 候 阵 们 坟 


由 于 一 致 估计 As 与 Bo 的 方法 有 许多 ,所 以 存在 估计 A。BoAo 的 一 些 可 行 
方法 。 因 此 ,各 种 不 同 的 经 济 计量 程序 应 该 给 出 一 样 的 系数 估计 ,然而 ,有 充足 的 
理由 认为 ,在 小 样本 下 可 以 给 出 不 同 的 标准 误差 .t 统计 量 以 及 p 值 。 决 定 用 哪 种 
方法 ,取决 于 实践 者 以 及 有 关 dgp 分 布 假设 的 威力 。 

方差 矩阵 的 三 明治 估计 

VN(0 一 0) 的 极 值 分 布 具 有 方差 矩阵 As'BoA。'。 由 此 可 得 ,9 具有 渐 近 方 


差 矩阵 N -!Aj !Bo A '! ,这 里 ,因为 我 们 考虑 的 是 9 而 不 是 VN (6 一 0) , 故 除 以 NN， 
0 的 渐 近 方差 的 三 明治 估计 值 (sandwich estimate) 是 具有 形式 


V[9 ]=N A !'BA” (5. 34) 


的 任何 估计 值 ,其 中 ,A 关于 Au 是 一 致 的 ,而 B 关于 Bo 是 一 致 的 。 由 于 B 夹 在 
A-: 与 A 一 :之 间 , 所 以 称 为 三 明治 形式 。 对 于 许多 估计 量 来 说 ,A 表示 海 赛 和 矩阵 ， 
因此 A-: 是 对 称 的 ,但 情况 未 必 总 是 如 此 。 

稳健 三 明治 (robust sandwich) 估 计 值 是 其 中 一 种 三 明治 估计 值 , 即 估计 值 B 
在 相对 弱 假 设 下 关于 B 是 一 致 的 。 这 就 导致 所 谓 的 稳健 三 明治 误差 (robust stand- 
ard errors) 。 一 个 重要 例子 是 , OLS 估计 量 的 方差 矩阵 的 怀特 异 方差 性 一 致 估计 
值 ( 参 见 4. 4. 5 节 )。 在 各 种 特定 背景 下 , 稍 后 几 节 将 详 述 ,以 体 人 (Huber，1967 ) 
命名 的 稳健 三 明治 估计 值 , 称 为 休 伯 估 计 值 ;以 艾 克 与 怀特 (Eicker-White，1980a， 
b，1982) 命 名 的 , 称 为 艾 克 一 怀特 估计 值 ;: 而 在 平稳 时 间 序 列 应 用 中 ,以 纽 韦 和 款 
斯 特 (Newey-West，1987b) 命 名 的 , 称 为 纽 书 一 韦 斯 特 估计 值 。 

关于 A 与 B 的 估计 

这 里 ,我们 阐述 Au 与 B 的 各 种 不 同 估计 量 , 既 涉及 求解 hv (0 ) 一 0 的 估计 方 
程 估 计量 ,又 涉及 求解 9QN (90)/901; 二 0 的 局 部 极限 估计 量 。 

式 (5. 29) 与 式 (5. 18) 中 A。 的 两 种 标准 估计 信和, 都 是 海 赛 (Hessian) 和 窍 阵 入 
计 值 : 

+4 __9h» (0) _ 9 Qn (9 ) 


AH a@ | ; 3030 


(5. 35) 
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其 中 ,第 二 个 等 式 解 释 了 运用 海 赛 术语 的 由 来 ,而 期 望海 赛 (expected Hessian) 算 阵 
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估计 值 是 : 


| (5 36) 


Am=E[ Tg | ,=r [ge 
第 一 项 在 解析 形式 比较 简单 ,并 潜在 地 依赖 于 较 少 的 分 布 假设 ,后 者 更 可 能 是 人 负 定 
的 且 可 逆 的 。 z 
对 于 式 (5. 30) 与 式 (5. 19) 中 的 Bo 来 说 ,不 可 能 使 用 明显 的 估计 值 Nhn (9 ) 义 
hn (90 ) ,因为 当 把 6 定义 成 满足 hv (6 ) 二 0 时 ,这 等 于 0。 一 种 估计 是 做 出 潜在 的 
强 分 布 假设 ,以 使 : 
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B=EF Nh (Oh 0) "| ;=—E| NS 人 | ， (5. 37) 


对 于 具有 对 不 同 :数据 独立 的 m 佑 计量 与 估计 方程 估计 量 来 说 , 弦 假 设 是 可 能 的 。 
于 是 , 式 (5. 30) 简 化 成 : 

B, 一 E| 广 nb)h(b) | 
由 于 独立 性 蕴含 着 对 于 i 关 7 ,ELhh ] 二 ELh; ELh ,给 定 ELh (0)j] 二 0, 这 也 等 于 
0。 这 就 产生 了 外 积 Couter product, 记 为 OP) 估 计 值 或 BHHH 估计 值 [以 伯 恩 特 、 
吉尔 .者 尔 和 雁 斯 曼 (Berndt，Hall，Hall and Hausman，1974) 命 名 |: 





- 1 N ~ ~ 1 N 9g:(0) | dg.(0) 上 
Bo 一 Nh Oh) = No ,0 |, (5.38) 


Bu 所 需 的 假设 比 Be 所 需 的 要 少 一 些 ， 

在 实际 应 用 中 ,估计 B。 时 经 党 调整 目 由 度 (degrees of freedom adijustment)， 
对 Bw 而 言 , 用 CN 一 q) 而 不 是 N 除 以 式 (5. 38) , 而且 类 似 地 ,用 N/(N 一 q) 乘 以 式 
(5. 37) 中 的 BE 。 在 非 线性 模型 中 ,这 种 调整 会 产生 较 好 的 有 限 样本 绩效 ,并 且 它 
与 对 具有 同方 差 误 差 的 OLS 所 做 出 的 自由 度 调整 是 相符 的 。 对 An 或 Ag 来 说 ， 
没有 类 似 的 调整 。 

在 满足 A 一 一 Bo 的 特殊 情况 下 ,可 进行 简化 。 重 要 的 例子 是 ,具有 同方 差 误 
差 的 OLS 或 NLS( 人 参见 5. 8. 3 节 ) ,以 及 具有 正确 设 定 分 布 的 极 大 似 然 法 (参见 
5. 6.4 节 )。 于 是 ,使 用 一 A-'! 或 让 ! 来 估计 VN(6 一 8。 ) 的 方差 。 与 那些 利用 三 明 
治 形式 的 方法 相 比 ,这 些 估计 和 值 对 dgp 错误 设 定 稍 欠 稳 定性 。 然 而 ,对 dgp 错 谋 设 
定 可 能 会 男 外 导致 9 的 非 一 致 性 ,在 此 情况 下 ,甚至 建立 在 稳健 三 明治 估计 值 基础 
上 的 推 盯 也 将 是 无 效 的 。 

对 于 5. 2 节 的 泊 松 例 了 于 来 说 ,有 Ar 一 Agh 一 一 1 2iexp(X: CD)xix 与 Bor = 
(N 一 g) 13),(y; 一 exp(X/ BG))?xiX。 如 果 VLy|x] 二 exp(x Bo);, 即 y|x 确实 服从 泊 
松 分 布 的 情况 ,那么 Br — 一 [LNVCN 一 g)]Asa ;并 且 可 进行 位 化 。 


5.6 极 大 似 然 法 


ML 估计 量 在 一 些 估 计量 中 占据 着 特殊 地 位 。 在 一 致 渐 近 正 态 的 佑 计量 中 ， 
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它 是 最 有 效 的 估计 量 。 从 教学 上 讲 , 它 也 是 重要 的 ,因为 非 线 性 回归 的 诸多 方法 ， 
比如 m 估计 ,被 看 成 对 最 先 获得 的 ML 估计 结果 的 推广 与 改变 。 


5. 6.1 似 然 阴 六 


归功 于 费 希 尔 (Fisher，1922) 的 似 然 原理 (likelihood principle) ,是 选取 对 观测 
到 的 实际 样本 的 似 然 求 极 大 值 的 9 值 ,并 作为 参数 向 量 @ 的 估计 量 。 在 离散 情况 
下 ,这 一 似 然 是 通过 概率 质量 隧 数 所 得 到 的 概率 ;而 在 连续 情况 下 , 似 然 就 是 密度 。 
考察 离散 情况 。 如 果 0 的 一 个 值 列 含 着 观测 到 的 数据 发 生 概 率 是 0. 001 2, 而 98 的 
第 二 个 值 给 出 较 大 的 概率 0. 001 4, 那 么 8 的 第 二 个 值 是 较 好 的 估计 量 。 

此 处 ,联合 概率 质量 函数 或 密度 f(y,X10) ,可 以 被 认为 是 给 定数 据 (y,X) 时 6 
的 函数 。 称 这 种 函数 为 似 然 函 数 (likelihood function) ,并 记 为 Ln (8|y,X)。 对 
Lv(9) 求 极 大 值 等 价 于 对 对 数 似 然 困 数 (log-likelihood function) 


Ln (0)= In Ln‘(0) 


求 极 大 值 。 我 们 取 自 然 对 数 , 是 因为 在 应 用 中 ,这 会 产生 具有 NN 项 之 和 的 目标 吗 
数 , 而 不 是 N 项 之 积 的 目标 肾 数 。 

条 件 似 然 

似 然 函数 Ly (9) 二 f(y,X10) 二 f(y,X10)f(X10) 既 需要 对 给 定时 y 的 条 件 
密度 加 以 设 定 ,又 需要 对 XX 的 边际 密度 进行 设 定 。 

然而 ,估计 通常 建立 在 条 件 似 然 际 数 (conditional likelihood function) LN (09) 一 
f(y,;,X10) 的 基础 上 ,因为 回归 目标 是 对 给 定 X 时 y 的 特性 进行 建 模 。 如 果 
f(y,X|10) 与 f(X) 依 赖 于 参数 的 互 不 相交 集合 ,那么 这 就 不 是 一 个 约束 。 当 情况 
如 此 时 ,普遍 做 法 是 省 略 从 属 条 件 。 对 于 极 少 数 的 例外 ,和 壁 如 内 生 抽 样 (参见 第 3 
章 和 第 24 章 ) ,一 致 估计 要 求 建立 在 完全 联合 密度 f(y, X16) 而 不 是 条 件 密度 
f(yY|X,0) 的 基础 上 。 

“对 于 横 截 面 数 据 来 说 ,观测 值 (y;,x;) 对 不 辣 i 是 独立 的 ,其 条 件 密度 图 数 为 

flyilxi,0)。 那 么 ,由 独立 性 ,联合 条 件 密度 f(y|X, 9) 二 了 ;| f(y; |x;,0) 得 出 (条 
件 ) 对 数 似 然 函 数 : 


N 
QW (0) = NT Lv(0) 一 六 > In fly,lx, 0) (5. 39) 
;一 1 


这 里 ,我们 用 六 去除 ,因此 目标 函数 是 平均 值 。 

通过 用 向 量 y 代替 纯 量 >y， 同 时令 f(y |x; ,0) 表 示 以 x%; 为 条 件 的 y; 的 联合 密 
度 ,就 能 把 结果 扩展 到 多 变量 数据 .方程 组 以 及 面板 数据 上 。 也 可 参见 5.7. 5 区 。 

例子 

就 数据 类 型 的 广泛 性 而 言 , 下 述 方法 用 于 生成 完全 参数 横 截 面 回归 模型 。 在 
基础 统计 学 课程 中 ,在 因 变 量 y 为 iid 情况 下 ,首先 选择 某 个 分 布 的 一 个 参数 或 两 
个 参数 (或 者 在 一 些 极 少数 情况 下 ,为 三 个 参数 ) 情 况 加 以 研究 。 然 后 ,根据 回归 元 
与 参数 0, 对 一 个 或 两 个 基本 参数 加 以 参数 化 。 

一 些 广泛 使 用 的 分 布 及 参数 化 已 由 表 5. 3 给 出 。 另 外 一 些 分 布 则 由 附录 B 给 
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出 ,而 且 曾 述 了 抽取 伪 随 机 变量 的 方法 。 
表 5.3 极 大 似 然 :常用 密度 
模型 y 的 范围 密度 f(y) 通用 参数 化 
正 态 模型 (一 co，co) [2ro: J Ye Ym /2 AD 天 一 
贝 努 利 模型 0 或 1 pr (1 一 旋 ) 后 ， logit p=e*3/(1++e*3) 
指数 模型 (0，co) Me A 二 ex8 或 1/A 二 e*3 
泊 松 模型 0，1，2,… e A/y! A 一 ex4 


对 于 连续 型 数据 (一 ce，ce) 来 说 , 正 态 分 布 是 一 个 标准 分 布 。 经 典 线 性 回归 
模型 设 u 二 x B , 且 假 定 o2 是 常 值 。 

对 于 取 值 为 0 或 1 的 离散 二 值 数据 来 说 ,其 密度 总 是 贝 努 利 的 , 即 一 种 特殊 情 
沈 的 二 项 式 试验 。 通 常 , 贝 努 利 概率 参数 化 会 产生 logit 模型 , 这 已 在 表 5. 3 中 列 
出 。 此 外 ,还 有 p= 二 四 (x B) 的 模型 ,其 中 ,9(:) 表 示 标 准 正 态 累积 分 布 函 数 。 这 些 
模型 将 在 第 14 章 加 以 分 析 。 

对 于 正 的 连续 型 数据 (0，co) 来 说 ,第 17 章 一 第 19 章 将 考察 著名 的 持续 期 限 
数据 ,除了 表 5. 3 给 出 的 指数 模型 之 外 ,还 经 常 使 用 比较 丰富 的 威 布 尔 、 伽 玛 以 及 
对 数 正 态 模型 。 

对 于 取 值 为 0，1,，2,，… 整数 值 的 计数 数据 来 说 (参见 第 20 章 ), 除 5.2.1 节 
阐述 的 泊 松 模型 外 , 台 公 常 使 用 比较 丰富 的 负 一 项 式 ， 令 4 二 exp(x B), 这 确保 了 正 
的 条 件 均值 。 

对 于 不 完整 的 可 观测 数据 ,使 用 这 些 分 布 的 删 失 或 者 截取 变形 。 最 普遍 的 例 
子 是 删 失 正 态 的 , 称 为 Tobit 模型 ,将 在 16. 3 节 加 以 阐述 。 

标准 的 基于 似 然 的 模型 ,几乎 很 少 通过 做 出 误差 项 分 布 的 假设 来 加 以 设 定 。 
相反 ,它们 针对 因 变 量 的 分 布 直接 设 定 。 在 y~NLx 6B, c] 的 特殊 情况 下 ,我 们 能 
等 价 定 义 > 一 XxXG 十 zx, 其 中 ,误差 项 wx 一 AL0, 于 ]。 然 而 ,这 依赖 于 由 几 个 其 他 分 
布 所 共有 的 正 态 可 加 性 质 。 例 如 ,如 果 y 服从 均值 为 exp(xB ) 的 泊 松 分 布 ,我 们 
总 能 写成 y 一 exp(xB) 十 wu, 但 误差 项 不 再 服从 人 们 熟悉 的 分 布 。 


5.6.2 极 大 似 然 仿 计 是 


极 大 似 然 估计 量 (maximum likelihood estimator， 记 为 MLE) 是 对 (和 条件) 对 数 
似 然 函数 求 极 大 估计 量 ,这 显然 也 是 极 值 估计 量 。 通 常 ,MLE 是 求解 一 阶 条 件 
了 人 1 人 | x, ,0) 
N 3 人 
的 局 部 极 大 值 。 更 正式 地 讲 , 这 个 估计 量 是 条 件 MLE, 因 为 它 是 建立 在 给 定 x 时 y 
的 条 件 密 度 基础 上 ,但 是 ,普遍 做 法 是 使 用 比较 简单 的 术语 MLE。 
梯度 向 量 3.Cv (6)7/30 称 为 得 分 向 量 (score vector) ,因为 它 加 总 了 对 数 密度 的 
一 阶 导 数 , 而 且 当 在 0。 处 进行 计算 时 , 称 之 为 有 将 得 分 (efficient score) 。 


= 0 (5. 40) 
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5. 6.3 信 忌 给 用 等 式 


倘 硅 密度 得 以 正确 设 定 ,并 且 是 针对 不 依赖 于 8 的 y 范围 值 , 则 可 以 简化 5.3 
节 中 关于 MLE 的 结果 。 

正则 条 件 

ML 的 正则 条 件 是 : 


| aln jy|x,0) 
下 /| 一 一 一 一 一 一 |=| 一 一 一 一 一 


j6 3 fly|x,0)=0 (5. 41) 


-El? | Er| 六 > x,0) 2 9 | (5 42) 
其 中 ,记号 EyL*] 明 显 表 示 , 此 期 望 是 针对 特定 密度 f(y|x,0) 而 取得 的 。 缮 果 
(5. 41) 芍 含 , 得 分 向 量具 有 期 望 值 90, 而 由 式 (5. 42) 可 得 出 式 (5. 41)。 

5. 6.7 节 给 出 的 推导 要 求 y 不 依赖 于 8 的 那些 范围 值 ,因此 ,积分 与 微分 可 进 
行 交 换 。 

信息 矩阵 等 式 

信息 和 矩阵 (information matrix) 是 得 分 回 量 外 积 (Couter product of the score 
vector) 的 期 望 : 


7 —E[ 2 29) ] 


38 90 (5. 43) 


术语 信息 矩阵 用 工 表 示 , 工 是 9Lry (0)/ 36 的 方差 ,因为 由 式 (5. 41) 可 知 ,9Cnv (0)/90 
具有 零 均 值 。 于 是 ,大 工 的 值 意味 着 6 的 小 变化 会 导致 对 数 似 然 的 大 变化 ,这 就 包 
含 了 所 研究 的 信息 8。 更 准确 地 讲 , 数 量 Z 称 为 费 希 尔 信息 (Fisher information)， 
因为 还 存在 其 他 可 供 选 择 的 信息 检测 式 。 

如 果 期 望 是 关于 f(y|x， 0 ) 的 ,对 对 数 似 然 函 数 (5. 39) 来 说 ,正则 条 件 绚 
含 着 : 


TazCv(9)| 1 TaCnv(9) 9aCNv(Cg) 
Er| “i630” ,| Esl a06 90 , (3.44) 








关系 (5. 44) 称 为 信息 和 矩阵 (IMD) 等 式 ,这 蕴含 信息 矩阵 也 等 于 一 EL9? Ln (6)/3036 ] 。 
IM 等 式 蕴 含 一 A 一 Bo ,其 中 ,Au 与 Bo 已 经 在 式 (5. 18) 与 式 (5. 19) 中 定义 过 。 于 
是 ,可 对 定理 5. 3 加 以 简化 ,因为 A,'BoA,。 一 一 A。 一 Bo。 。 

等 式 (5. 42) 是 广义 信息 和 矩阵 等 式 的 特殊 情况 (generalized information matrix 
equajlity ) : 


E/| 2 人 9 = Elmy,0 他 0 | (5. 45) 


其 中 ,m(*) 表 示 具 有 EyLm(y,09) 1 二 0 的 问 量 矩 也 数 ,而 期 望 是 关于 密度 f(y19) 
的 。 并 且 , 这 一 结果 已 经 在 5. 6. 7 节 得 到 , 它 被 用 于 第 7 章 和 第 8 章 来 获得 某 些 检 
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= 


验 统计 量 的 较 简 单 形式 。 
5.6.4 ML 全 计量 的 分 布 


正则 条 件 (5. 41) 与 (5. 42) 导 致 5. 3 节 中 一 般 结果 的 简化 。 倘 车 期 望 是 关于 
f(ylx,0) 的 ,一 致 性 的 根本 条 件 是 EL9ln f(y|x,98)/93816 ] 王 0。 由 正则 条 件 
(5. 41) ,这 是 成 立 的 。 因 而 ,如 果 dgp 是 f(y|x,0), 也 就 是 说 ,密度 被 正确 设 定 ， 
那么 MLE 关于 人 由 是 一 致 的 。 

对 于 渐 近 分 布 来 说 ,通过 IM 等 式 ,由 于 一 A 二 B, 故 可 以 进行 简化 ,这 又 一 次 
假定 密度 被 正确 设 定 。 

这 些 结果 能 汇总 成 下 述 命 题 。 

命题 5. 5( ML 估计 量 的 分 布 ) 做 出 下 述 假设 : 

(i) dgp 是 用 作 定 义 似 然 函 数 的 条 件 密 度 f(y;|x; ,0 )。 

(ii) 密度 函数 f(，) 满 足 f(y,0) 一 f(y,0), 当 且 仅 当 0 二 0， 

(iii) 敌阵 : 
1 Ln(0) 


Au 一 plim 一 


N 6050” | (5. 46) 





存在 且 是 有 限 非 奇异 的 。 

(iv) 对 数 似 然 的 微分 与 积分 次 序 能 够 交换 。 

那么 ,ML 估计 量 被 定义 为 一 阶 条 件 9N -!Lv(0)/90 二 0 之 解 , 它 关于 入 是 一 
致 的 ,而 且 : 


~ dd 
VN(Ow ~) >AMN[0, —A, | (5. 47) 


条 件 ( 表 明 ,条 件 密 度 被 正确 设 定 ;条 件 (D 与 Ci 确保 了 b 是 可 识别 的 ;条 件 
(ii 类似 于 OLS 估计 情况 下 plim N XXX 上 的 假设 ;条 件 (iv) 是 正则 条 件 成 立 所 
必需 的 。 正 如 一 般 情 况 ,概率 极限 与 期 望都 是 关于 (y, X)dgp 的 ,或 者 是 针对 y 的 ， 
如 果 假 定 回 归 元 是 非 随 机 的 ,或 者 分 析 是 以 X 为 条 件 的 。 

5.7 节 将 详细 考察 条 件 的 放松 情形 。 大 多 数 ML 例子 满足 条 件 (iv) ,但 它 没 有 
排除 请 如 区 间 L0, 9 上 一 致 分 布 的 一 些 模型 ,因为 在 这 种 情况 下 ,y 的 范围 会 随 0 
而 变化 。 于 是 ,不 仅 A 天 一 Bu ,而 且 全 局 MLE 以 不 同 于 VN 的 速率 收 钱 并 服从 非 
正 态 极限 分 布 。 例 如 ,参见 希拉 诺 和 波 特 (Hirano and Porter，2003)。 

已 知 命题 5. 5, 所 得 到 的 渐 近 分 布 时 常 被 写成 ，; 

bu ~N|0,— (El 六) | (5. 48) 
其 中 ,为 了 记号 简单 起 见 , 不 需要 在 @ 处 的 计算 ,我们 假定 应 用 LLN, 因 而 定义 中 
的 plim 算 子 可 用 linE 代替 ,然后 省 略 limit。 在 后 面 章节 将 经 常 使 用 这 一 记号 。 

式 (5. 48) 的 右边 是 克拉 上 默 一 拉 和 六 下界 (Cramer-Rao lower bound， 记 为 
CRLB) ,由 基础 统计 和 学 谋 程 知道 ,这 个 下 界 是 小 样本 无 俩 佑 计量 方差 的 下 界 。 对 于 
大 样本 来 说 ,这 里 考察 的 内 容 即 死 拉 软 一 拉 奥 下 界 是 一 致 渐 近 正 态 佑 计量 的 方差 


矩阵 的 下 界 ,该 估计 量 在 & 的 紧 区 间 上 均匀 收敛 到 VN(6 一 go) 的 正 态 性 [参见 拉 
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奥 (Rao,1973, 第 344 一 351 页 )]。 粗 略 地 讲 , MLE 因为 在 VN 一 致 估计 量 中 具有 
最 小 渐 近 方差 而 拥有 强 的 吸引 力 。 这 个 结果 要 求 对 条 件 密度 正确 设 定 的 强 假设 ， 


5.6.5 威 布尔 回归 例子 


举 个 例子 ,考察 建立 在 威 布尔 分 布 基础 上 的 回归 ,这 经 常用 于 对 持续 期 限 数 据 
壁 如 失业 期 限 的 长 度 进行 建 模 (参见 第 17 章 )。 

威 布 尔 分 布 的 密度 是 f(y) 二 Yay iexp( 一 2 ) 其 中 ,y>0 且 参 数 a 二 0 而 
y0。 可 以 证 明 ,ELyj] 二 y ?TT(a ! 十 1) ,其 中 ,FTC 表示 伽 玛 函数 。 标 准 的 威 
布尔 回归 模型 是 通过 设 定 Y= exp(x B86) 来 获得 的 ,在 此 情况 下 ,E[y|x]= 
exp( 一 XB/a)I(a 十 1)。 给 定 在 不 同 ; 上 的 独立 性 ,对 数 似 然 函数 是 ， 


NT 一 NT 二 Tina 十 (一 Din 和 一 exp(X 8)y:) 
对 6 与 a 进行 微分 ,得 出 一 阶 条 件 : 
N12 (1—exp(xB)y}x 一 0 
N71 5), (= 十 In Yi — exp(X; B) yln » |)= 0 


与 泊 松 例子 不 同 ,一 致 性 本 质 上 要 求 对 分 布 正确 设 定 。 为 了 理解 这 一 点 ,考察 
B 的 一 阶 条 件 。 非 正式 条 件 (5. 25) EL {1 一 exp(x B)y})xj 二 0 要 求 EL ix= 
exp( 一 XxX), 其 中 ,和 宪 数 a 没有 被 限制 成 为 整数 。a 的 一 阶 条 件 会 导致 y 上 更 为 复 
林 的 矩 条 件 出 现 。 

因此 ,我 们 继续 要 求 密度 实际 上 是 威 布尔 的 ,满足 7Y 二 exp(x Guo) 且 wx 一 ao 的 假 
设 。 由 于 y 的 范围 不 依赖 于 参数 ,所 以 可 应 用 定理 5.5。 那 么 ,由 式 (5. 48) 知 , 威 
布尔 MLE 服从 渐 近 正 态 分 布 , 其 渐 近 方差 为 : 


2 一 esp yo wx 之 — eh yh In yi x 
v|2 |= 一 下 4 
nonx > 


其 中 ,qd 一 一 (1/a2) 一 esa yw (ln y;)*。 式 (5. 49) 中 矩阵 的 遂 需 要 通过 分 块 求 道 来 
获得 ,因为 非 对 角 项 9* Ly(B ,a)/9B9a 不 具有 零 期 望 值 。 在 带 有 老 期 望 交 叉 导 数 
EL92 Ln(B ,a)/9B3a |] 二 0 的 模型 中 可 进行 简化 ,诸如 具有 正 态 分 布 误差 的 回归 ， 
在 此 情况 下 ,信息 矩阵 称 关 于 6B 与 a 为 分 块 对 角 的 。 


5.6.6 MLE 的 方差 扯 隆 仿 计 


如 同 5. 5. 2 节 曾 证 明 的 ,存在 几 种 一 致 估计 极 值 估计 量 方差 矩阵 的 方法 。 对 
于 MLE 来 说 , 如果 假 定 信 息 和 矩阵 等 式 成 立 , 那么 会 产生 男 外 的 可 能 性 。 于 是 ， 
A。BoA。 、 一 A。 以 及 Bu 都 是 渐 近 等 价 的 ,它们 都 是 这 些 数 量 相 应 的 一 致 估计 
值 。 对 MLE 的 详细 讨论 ,已 由 戴 维 条 和 才 金 农 (Davidson and MacKinnon，1993， 
第 18 章 ) 给 出 。 

三 明治 估计 值 是 以 休 伯 (Huber，1967) 的 名 字 来 命名 的 , 称 为 休 伯 估计 值 ;或 


一 | 


(5. 49 ) 
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本 本 


以 怀特 (White，1982) 名 字 来 命名 , 称 为 怀特 估计 值 , 他 们 在 没有 施加 信息 和 矩阵 等 
式 的 条 件 下 研究 了 MLE 分 布 。 在 理论 上 ,三 明治 估计 值 比 一 A :或 了 :更 为 稳健 。 
然而 ,信息 矩阵 等 式 失 效 的 原因 则 会 另外 导致 6 wm 的 更 为 基础 的 非 一 致 性 复杂 问 
题 , 注 意 到 这 一 点 是 重要 的 。 这 是 5.7 区 的 主题 。 

5.6.7 正则 条 件 的 推导 


现在 ,我 们 正式 推导 5. 6. 3 节 和 曾经 表述 的 正则 条 件 。 为 了 记号 简单 起 见 , 均 不 
采用 下 标 i 与 回归 元 向 量 。 
以 推导 第 一 个 条 件 (5. 41) 开 始 。 对 密度 进行 积分 等 于 1, 即 ; 


| Fle)w 一 ] 


两 边 对 0 进行 微分 ,得 到 总 | f(y10)dy 一 0。 如 果 积 分 范围 (y 的 范围 ) 不 依赖 于 6， 
这 著 含 着 : 


[yy =0 (5. 50) 


30 
现在 ,93ln f(y10)/99 一 [9f(y19)/981/[L f(y19)|] 剖 含 着 . 
9f(y10) _ dln f(y10) 


5. 51) 
6 6 fly|0) ( 
把 式 (5. 51) 代入 式 (5. 50) ,得 出 ， 

[E00 dy = (5. 52) 


倘若 期 望 是 关于 密度 f(y19) 的 ,这 就 是 式 (5. 41)。 
现在 ,考察 第 二 个 条 件 (5. 42) ,最 初 推导 更 为 一 般 的 结果 。 对 于 某 个 (可 能 同 
量 ) 函数 m(.) ,假定 : 


ELm(Cy,9)] 一 0 
于 是 ,当期 望 是 关于 密度 f(y19) 取 值 时 ,有 : 


|mcy,0) fCyl0) dy -0 (5. 53 ) 
两 边 对 9 进行 微分 ,并 假定 微分 与 积分 是 可 交换 的 , 则 得 到 : 
(P10 t+ my,0) fF )ay 一 0 (5. 54) 


把 式 (5. 51) 代入 式 (5. 54) ,当期 望 取 值 是 关于 密度 f(y10) 的 ,得 出 : 


人 


[ol + m(y,0) Foy|l6)jdy =0 (5.55) 
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-= Tr 


9m(y,0) | 9ln f(y109) 
E| SY |=—E| mcy,0) ye (5. 56) 
正则 条 件 (5. 42) 是 m(y,08) = aln f(y19)/399 的 特殊 情况 , 从 而 导致 IM 等 式 
(5. 44) 。 更 一 般 的 结果 (5. 56) 则 会 得 出 广义 的 IM 等 式 (5. 45) 。 

当 积 分 与 微分 不 能 交换 时 ,会 出 现 什么 情况 呢 ? 起 点 式 (5. 50) 不 再 成 立 , 这 是 


因为 由 微分 基本 定理 知 ,| /(y19)dy 关于 8 的 导数 在 积分 范围 内 包括 了 反映 函数 


9 存在 的 其 他 项 .从 而 ,ElLaln f(y18)/30| 关 0， 
当 密 度 被 错误 设 定时 ,会 出 现 什么 情况 呢 ? 于 是 , 式 (5. 52) 仍然 成 立 ,但 不 一 定 
蕴含 式 (5. 41) ,这 是 因为 式 (5. 41) 中 期 望 将 不 再 与 设 定 密度 f(y19) 有 关 。 


5. 7 准 极 大 似 然 法 


把 准 MLE bawm 定义 成 如 下 估计 量 , 对 被 错误 设 定 的 对 数 似 然 函数 即 由 于 错误 
设 定 密 度 而 导致 的 对 数 似 然 函数 求 极 大 值 。 通 常 ,这 种 错误 设 定 会 导致 出 现 非 一 
致 估计 ，。 

本 万 阐述 准 MLE 的 一 般 性 质 ,随后 在 某 些 特殊 情况 下 ,对 准 MLE 保持 一 致 
性 展开 讨论 ，。 


S.7.1 仿真 实 信 


原则 上 讲 , 任 何 密度 的 错误 设 定 都 会 产生 非 一 致 性 ,进而 用 ELaln f(y|x,0)/38|。 ] 
计算 出 的 期 望 (参见 5. 6. 4 他) 不 再 是 关于 乒 y|x,bo) 的 。 

通过 对 5. 3. 2 节 的 一 般 一 致 性 证 明 的 改进 ,把 准 MLE baw. 依 概率 收敛 到 伪 真 
实 值 (pseudo-true value)0” ,0 定义 为 


fg” =arg maxsca (plim N ! Ln (0)) (5.57) 


概率 极限 是 关于 真实 dgp 的 。 如 采 真 实 dgp 不 同 于 用 作 构 建 Ly (08) 所 假定 的 密度 
f(y|x,0) ,那么 通常 9 关 0, 同 准 MLE 是 非 一 致 的 。 

休 伯 《Huber，1967) 以 及 怀特 (White，1982) 已 经 证 明 , 除 了 以 8* 为 中 心 且 
IM 等 式 不 再 成 立 外 , 准 MLE 的 渐 近 分 布 类 似 于 MLE 的 情况 。 那 么 : 


< 
VNICgom 一 0 ) 一 AT0O， A BA (5. 58 ) 


其 中 ,A* 与 B* 均 由 式 (5. 18) 与 式 (5. 19) 定 义 , 只 是 概率 极限 是 关于 未 知 的 真实 dgp 
的 ,并 且 在 9* 处 进行 计算 。 如 同 5. 5. 2 节 一 样 ,可 获得 在 Gom 处 计算 的 一 致 估计 
值 全 与 下 。 

如 果 准 MLE 保持 一 致 性 ,那么 这 一 分 布 结果 就 可 用 于 统计 推断 。 除 下 一 节 
将 给 出 的 解释 之 外 , 若 准 MLE 是 非 一 致 的 , 则 一 般 来 说 ,9 没有 简单 解释 。 然 而 ， 
如 果 关 注 于 估计 的 准确 性 ,那么 式 (5. 58) 还 是 一 个 有 用 的 结果 。 结 果 (5. 58) 还 提 
供 了 怀特 信息 和 矩阵 检验 的 动机 (参见 8. 2. 8 节 ) 以 及 用 于 参数 模型 之 间 进 行 区 别 的 
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i 


全 检验 (Vuone’s test) (参见 8. 5. 3 节 )。 


5.7.2 库 尔 页 殉 一 利 布 勒 不 次 


回顾 4. 2. 3 节 , 阁 ELy|xj] 关 x B66, 则 在 平方 误差 损失 下 ,OLS 估计 量 还 能 被 解 
释 成 最 佳 线性 预测 式 。 怀 特 CWhite，1982) 曾 提出 ,在 性 质 上 类 似 于 准 MLE 的 
解释 。 

设 f(y|0) 表 示 y1，,…，yn 的 假定 联合 密度 ,而 设 h(y) 表 示 真 实 密度 , 它 是 未 
知 的 ,为 了 简单 起 见 , 这 里 没有 采用 回归 元 的 相依 性 。 把 库 尔 贝 克 一 利 布 勒 信息 准 
则 CKullback-Leibler information criterion， 记 为 KLIC) 定 义 成 . 





KUIC=E| In( As ) | (5. 59) 
其 中 ,期 望 是 关于 hl(y) 的 , 当 存 在 0。 使 得 hy) 二 了 f(y|0o) 时 ,KLIC 就 取 极 小 值 0， 
也 就 是 说 ,密度 被 正确 设 定 , 而 且 KLIC 值 越 大 ,就 越 不 知道 真实 密度 ， 

于 是 , 准 MLE ba 对 f(y19) 与 h(y) 之 间 的 距离 求 极 小 值 ,其 中 ,距离 是 利用 
KLIC 测量 。 为 获得 这 一 结果 ,注意 在 适当 假设 下 ,plim NA(9) 王 ElLin f(y|0)j]。 
因此 ,bow 收敛 到 使 ELin f(y10) ] 取 极 大 值 的 0 。 然 而 ,由 于 KLIC 一 E[lnh(y)] 一 
ELin f(y10) ,同时 因为 期 望 是 关于 h(y) 的 ,第 一 项 不 依赖 于 0, 这 等 价 于 求 KLIC 
的 极 小 值 。 


3.7.3 线 性 指数 族 


在 一 些 特殊 情况 下 ,甚至 当 密 度 被 部 分 错误 设 定 时 , 准 MLE 仍 是 一 致 的 。 一 
个 众所周知 的 例子 是 ,倘若 ELy|xj 一 x Bo ,尽管 误差 是 非 正 态 的 ,但 具有 正 态 性 的 
线性 回归 模型 的 准 MLE 是 一 致 的 。 泊 松 MLE 提供 了 第 二 个 例子 (参见 5. 3. 4 
节 )。 

类 似 于 错误 设 定 的 稳健 性 ,被 建立 在 线性 指数 族 (Linear Exponential family， 
LEF) 中 的 密度 基础 上 的 其 他 模型 所 享有 。 线 性 指数 族 密度 能 够 写成 . 


f(y|1)=expla(y) Hb) ely)y) (5. 60) 


其 中 ,我 们 已 给 出 LEF 的 均值 参数 化 ,因而 py 二 ELyj。 可 以 证 明 , 对 这 一 密度 来 
说 ,ELyj= 一 Lc GO] ae (0) ,而 Viyj] 二 [ec (jy)] ,其 中 ,ec (yy) 王 9c(p)/9p 且 
a (0 一 ga 人 (7Vawk。 各 种 不 同 的 函数 a(*) 与 c(*) 会 产生 族 中 的 不 同 密度 。 可 把 式 
(5. 60) 中 的 项 5(y) 正 规 化 为 常 值 ,以 此 保证 概率 之 和 或 积 为 1。 密度 的 剩余 部 分 
expla(pj) 十 clp)y} 表 示 关 于 y 为 线性 的 指数 渍 数 ,因此 可 解释 为 线性 指数 项 ， 

大 部 分 密度 不 能 用 这 种 形式 表达 。 然 而 , 几 种 重要 的 密度 都 是 LEF 密度 , 包 
括 那 些 由 表 5. 4 给 出 的 。 由 表 5. 3 前 述 过 的 这 些 密度 ,在 表 5. 4 中 用 式 (5. 60) 的 
形式 重新 表述 。 其 他 的 LEF 密度 包括 具有 已 知 试验 数 的 二 项 式 ( 贝 努 利 作为 一 种 
特殊 情况 ) 一些 负 二 项 式 ( 几 人 和 何 及 泊 松 模型 作为 一 种 特殊 情况 ), 以 及 单 参 数 伽 玛 
(指数 作为 一 种 特殊 情况 ) 。 
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表 5.4 线性 指数 族 密度 :重要 例子 


分 布 f(y)=exp{la(*) th(y) tcl )y} Ely] Viy]j=[c (2)] 
£1 ss Yk ， 
正 态 分 布 (只 已 知 ) exp1 27 2 InC2xo’ ) 六 + 如 > 4 0 

贝 努 利 分 布 expiln(1—p)+lnLp/(1—p) |y)} 4u=p pu(1—p) 
指数 分 布 exp{ ln A—Ay}) p= 1/A pe 
泊 松 分 布 expt 一 人 一 in y!+tyln 23) Hp 一 人 £1 
对 回归 来 说 ,把 参数 二 ELy|xj 建 模 成 
x 二 g(xX, 8) (5.61) 


随 不 同 模型 而 变化 的 设 定 函数 (参见 5.7.4 节 ) ,部 分 地 依赖 于 对 y 范围 的 限制 ,从 
而 依赖 于 py。 于 是 ,LEF 对 数 似 然 是 : 


nH 


[Lv (8) = 2 {al(g(xi,B)) +b(y) + el(g(xi, B))y,} (5. 62) 
知 利 用 前 面 提 到 的 关于 y 的 前 二 阶 矩 信息 ,一 阶 条 件 可 重新 表述 成 为 ; 
DLLCNL ) _ ~ yi— g(X,, ) dpg(X;, ) 
Sf 2 A x Ee 0 (5. 63) 


其 中 ,二 [ce (g(x;,;B))] '! 被 假定 成 对 应 于 特殊 LEF 密度 的 方差 函数 。 例 如 ,对 
册 努 利 .指数 以 及 泊 松 而 言 ,o# 分 别 等 于 g;(1 一 g,)、1/g 以 及 gi, 其 中 ,gi 一 g(% ,9)。 

准 MLE 可 求解 这 些 方程 ,但 是 不 再 假定 LEF 密度 被 正确 设 定 。 上 古里 耶 克 斯 、 
蒙 福特 和 特 罗 农 (GouriéEroux，Monfort，and Trognon，1984a) 已 经 证 明 , 倘若 
E| y|xj= 二 g(x,Bo), 则 准 MLE Bam 是 一 致 的 。 这 是 一 个 对 一 阶 条 件 (5. 63) 取 期 
望 值 的 清晰 形式 ,如 果 ELy|xj 二 g(x, Bo), 那 么 它 在 8 二 Bo 处 的 计算 值 作 为 具有 
期 望 值 等 于 0 的 误差 y—g(x, AGO ) 的 加 权 和 。 

因此 , 倘 硅 给 定 x 时 ,y 的 条 件 均值 被 正确 设 定 , 则 基于 LEF 密度 的 准 MLE 
是 一 致 的 。 注 意 到 ,关于 > 的 实际 dgp 不 必 是 LEF。 它 是 一 个 设 定 密度 ,可 能 被 错 
误 设 定 为 LEEF。 

然而 ,甚至 对 正确 条 件 均 值 而 言 ,基于 方差 一 A。, 对 方差 .标准 误差 和 统计 量 
默认 输出 进行 调整 是 有 保证 的 。 一 般 来 讲 , 应 该 使 用 三 明治 形式 A。 BA。 ,除非 
给 定 x 时 ,y 的 条 件 方差 也 被 正确 设 定 ,在 此 情况 下 ,As 三 一 B 。 然 而 ,对 于 贝 努 利 
模型 来 说 ,总 是 有 4Ao 王 一 Bo 。 可 利用 式 (5. 36) 与 式 (5. 38) 获 得 一 致 标准 误差 。 

LEF 是 非常 特殊 的 情况 。 通 常 ,对 密度 在 任何 方面 的 错误 设 定 ,都 会 导致 
MLE 的 非 一 致 性 。 甚 至 在 LEF 情况 下 , 准 MLE 能 仅 用 于 预测 条 件 均 值 ,而 对 正 
确 设 定 密度 而 言 , 它 能 用 于 预测 条 件 分 布 。 


5.7.4 人 矿 义 线性 模型 


在 统计 学 文献 中 (参见 由 麦 卡 拉 和 和 尔 德 撰写 的 这 方面 的 文献 ), 把 建立 在 假定 
LEF 密度 基础 上 的 模型 称 为 厂 义 线性 模型 。 广 义 线性 模型 类 别 是 应 用 统计 学 中 关 


了 极 大 似 然 法 与 非 线性 最 小 二 乘法 估计 
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于 非 线 性 檬 截面 回归 的 最 广泛 使 用 的 框架 。 由 表 5. 3 知 , 它 包括 非 线性 最 小 二 乘 
法 . 泪 松 模型 .几何 模型 .probit ,logit、 二 项 式 ( 已 知 试验 次 数 )、 伽 玛 以 及 指数 回归 
模型 。 我 们 给 出 一 个 简短 概述 ,介绍 标准 的 广义 线性 模型 (GLM) 术 语 。 : 

标准 广义 线性 模型 设 定 (5. 61) 中 的 条 件 均 值 是 较 简 单 的 单 指 标 形式 , 因而 
4 二 g(xX BB)。 于 是 ,g"1(y) 二 xB ,而 函数 g-1(:) 称 为 连接 消 数 (ink function) 。 例 
如 , 泊 松 模型 的 通常 设 定 为 对 数 连 接 函 数 , 这 是 因为 如 果 j= 二 exp(x'B8), 那 么 ln 7 一 
x 0, 

一 阶 条 件 (5. 63) 变 成 i (Cy — gi)/c (Cg;) | gixX: 一 0， 其 中 , g; 一 g(xiG) 且 
8 一 &g (xiG)。 选 取 连 接 函 数 以 使 (Cg(o) 一 g (这样 做 在 计算 上 有 一 些 优 点 ， 
进而 这 些 一 阶 条 件 简 化 成 :yi 一 gi)%i 二 0, 或 者 误差 (y; 一 g;) 正 交 于 回归 元 。 典 
型 连接 肾 数 ‘127(canonical link function) 被 定义 成 函数 g 1(，), 满 足 c Cg(Co)) 一 
g (并 且 随 c(jy) 而 变化 ,进而 随 广义 线性 模型 而 变化 。 典 型 连接 函数 对 正 态 而 
言 ,使 得 jy 一 x 6 ;对 泊 松 而 言 ,使 得 jy 二 exp(x B); 对 二 值 数据 而 言 ,使 得 /一 
exp(xB)/[1 十 exp(xB)]。 最 后 一 个 式 子 是 由 表 5. 3 给 出 的 logit 形式 。 达 到 预 
期 的 极 大 似 然 对 数值 与 拟 合 对 数 似 然 值 之 差 的 2 信 , 被 称 为 离 差 (deviance) ,该 测 
量 值 是 将 线性 回归 的 平方 残 差 和 推广 到 其 他 非 线 性 指数 族 的 回归 模型 上 。 

建立 在 LEF 基础 上 的 模型 限制 太 强 , 因 为 所 有 竹 都 依赖 于 唯一 一 个 基本 参数 
A 一 g&(CXBG)。 广 义 线性 模型 文献 通过 做 出 下 述 方便 假设 来 施加 一 些 另外 的 结构 , 即 
LEF 方差 可 能 通过 纯 量 倍数 a 被 错误 设 定 , 因 此 ,Viy|x] 一 aX[c (g(x,B)]'!, 其 
中 ,必须 满足 a 取 1。 例 如 ,对 于 泊 松 分 布 来 说 , 设 VLy|xj] 二 ag (x, GD) 而 不 是 
g(X,B)。 已 知 这 种 方差 错误 设 定 , 可 以 证 明 B= 二 一 gh, 因而 准 MLE 的 方差 算 阵 
是 一 xcA， ,这 仅仅 需要 通过 用 a 和 敢 以 非 三 明治 ML 方差 矩阵 一 As' 来 重新 标 度 。 
广泛 使 用 的 a 一 致 估计 和 值 是 4 二 (N 一 K) 3, (Cy 一)?/6?, 其 中 ,&; 二 gg (x;， 
Bom) ,二 c[(81)] 1!, 用 (N 一 K) 而 不 是 NN 去除, 被 认为 是 对 提供 小 样本 更 好 的 
估计 值 。 更 详细 内 容 , 参 见 前 面 提 及 的 参考 文献 以 及 卡 梅 伦 和 特 里 维 迪 (Cameron 
and Trivedli，1986，1998 1) 。 

许多 统计 软件 都 包括 广义 线性 模型 模块 ,倘若 VLy|xj] 二 aLc (g(x,B))] ' ,该 
模块 作为 默认 而 给 出 正确 的 标准 误差 。 作 为 一 种 可 选择 的 方法 ,人 们 能 利用 ML 
进行 估计 ,其 标准 误差 可 用 稳健 三 明治 A。BoA。 公式 获得 。 在 实际 应 用 中 ,三 明 
治 误差 类 似 于 那些 利用 简单 的 广义 线性 模型 修正 所 获得 的 误差 。 然 而 , 男 一 种 估 
计 广 义 线性 模型 的 方法 是 通过 加 权 非 线性 最 小 二 乘法 ,如 同 5. 8. 6 节 末 尾 所 述 。 


$.7.5 多 内 变 最前 准 MLE 


本 章 关 注 纯 量 因 变量 ,但 是 该 理论 还 可 应 用 于 多 元 情况。 假定 因 变 量 y 是 
mX1 维 问 量 形 式 ,而 数据 (y，x) 对 于 不 同 ; 都 是 独立 的 ,i 二 1,…,N。 稍 后 几 章 
将 给 出 的 例子 包括 看 似 不 相关 方程 .同一 因 变 量 的 第 i 个 个 体 样本 具有 m 个 观测 
值 的 面板 数据 ,以 及 聚 类 数据 ,其 中 ,对 第 地 个 观测 值 而 言 ,数据 关于 j 的 mm 个 可 


[1J] 又 称 标准 连接 函数 。 一 一 译 者 注 
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能 值 是 相关 的 。 

已 知 f(y|x,98) 和 以 xX 为 条 件 的 y= (yi,…,y) 的 联合 密度 ,那么 完全 有 效 
MLE 如 同 式 (5. 39) 后 所 注释 的 ,可 以 求 N 2;In fly;|x;,0) 极 大 值 。 不 过 ,在 多 
元 应 用 中 ,y 的 联合 密度 是 复杂 的 。 已 知 mm 个 单 变量 密度 fj;(y;|x,0) 的 唯一 知识 ， 
1 一 1,…，7 ,其 中 ,y 表示 y 的 第 7 个 分 量 , 得 到 较 简 单 的 估计 量 是 可 能 的 。 例 如 ， 
对 于 多 元 计数 数据 来 说 ,人 们 从 六 个 独立 的 、 每 个 计数 的 单 变量 负 二 项 式 密度 开 
始 赋 究 , 而 不 是 从 可 能 相关 的 多 元 计数 模型 开始 。 

于 是 ,考察 建立 在 单 变量 密度 之 积 呈 ;ff;(y; | x,6) 基 础 上 的 准 MLE 6 ow , 它 对 : 


Ny m 
Q» (0) = > Sln f(y; |x,,0) (5. 64) 
;一 1 j=1 


求 极 大 值 。 伍 德里 奇 (Wooldridge，2002) 把 这 种 估计 量 称 为 偏 MLE, 这 是 因为 此 
密度 仅仅 被 部 分 设 定 。 

偏 MLE 是 满足 gq; 一 和 ;ln f(yi; |x;,8) 的 m 估 计量 。 一致 性 根本 条 件 (5. 25) 要 
求 ,E[ 2;9f(yi; |x;,0)/90|a | 一 0。 如 果 边 缘 密 度 f(y;; | x;,0,) 被 正确 设 定 ,那么 
这 个 条 件 成 立 ,进而 由 正则 条 件 可 知 ,ELa f(y | x ,9)7/30|。 j=0. 

因而 , 倘 奉 单 变量 密度 f;(y, |x,0) 被 正确 设 定 , 则 偏 MLE 是 一 致 的 。 一 致 性 
并 不 需要 f(y|x,9) 一 全， 户 (Y; |x,0) 。 然而 ,yi1,… ,ym 的 相依 性 将 导致 信息 和 矩阵 
等 式 失 效 ,因此 ,标准 误差 应 该 利用 满足 : 








1 on fy z 
N22 0 |, (5. 65) 
1 ln 六 
i 





的 方差 失 阵 的 三 明治 形式 加 以 计算 ,其 中 » fi — f(y |x; ,0)， 此 外 ,与 建立 在 联合 
密度 基础 上 的 MLE 相 比 , 偏 MLE 是 无 效 的 。 有 关 进 一 步 讨 论 , 将 在 6. 9 节 和 
6. 10 节 给 出 。 


5. 8 ” 非 线 性 最 小 二 乘法 


NLS 佑 计量 是 把 线性 模型 的 LS 估计 自然 推广 到 满足 EL y|xj 一 g(x, 6B) 的 非 
线性 模型 上 ,其 中 ,g(*) 表 示 关 于 8 为 非 线 性 的 。 本 质 上 ,分 析 与 结果 和 线性 最 小 
二 乘法 的 相同 ,其 唯一 的 变化 在 于 方差 抢 阵 公式 ,回归 元 向 量 x 被 9g(x,B)/96B153 所 
代替 ,条 件 均值 函数 的 导数 在 8 一 B 处 计算 。 

对 于 微观 经 济 计量 分 析 来 说 ,如 同 线性 情况 一 样 ,必须 要 对 异 方差 加 以 控制 。 
通 弟 ,对 异 方差 误差 进行 建 模 的 估计 量 及 推广 ,要 比 MLSE 的 有 效 性 差 , 但 它们 在 

观 经 济 计 量 学 中 仍 被 广泛 使 用 ,这 是 因为 它们 依赖 于 比较 弱 的 分 布 假设 。 


5. 8.1 非 纵 性 回归 模型 


非 线性 回归 模型 (nonlinear regression model) 定 义 纯 量 变量 具有 条 件 均 值 : 
El y; |x; |= g(x;, 0) (5,. 66) 


.2 极 大 似 然 法 与 非 线性 最 小 二 乘法 估计 


= -= 


其 中 ,g(*) 表 示 设 定 函 数 ,x 表示 解释 变量 的 向 量 ,而 8 表示 K X1 维 参数 向 量 。 
第 4 章 的 线性 回归 模型 是 g(x, 8) 一 x B 的 特殊 情况 。 

设 定 非 线性 函数 E[y | xz] 的 普遍 理由 包括 范围 限制 (例如 ,为 了 确保 
E[y| 妇 之 0) 以 及 供给 或 需求 的 设 定 ,或 者 源 自 生产 者 或 消费 者 满足 理论 约束 的 成 
本 或 开支 模型 。 一 些 广泛 使 用 的 非 线性 回归 模型 在 表 5. 5 中 给 出 。 


表 5.5 非 线性 最 小 二 乘法 :共同 例子 


模型 回归 函数 g(x, 9) 
指数 本数 exp{ (BIT 二 Brz tbs x )} 
自 滋 回归 元 形式 Bri 二 Bs 
柯 布 一 道格拉斯 生产 函数 Bi 7 7 
CES 生产 函数 [Bi x + Ba xe 下 
非 线 性 约束 BiritpBzrs tpBsrs, —B=pBb 


s. 8.2 NLS 人 计量 


误差 项 被 定义 为 因 变 量 与 其 条 件 均 值 的 差 y; 一 g(x;,B)。 非 线性 最 小 二 乘法 
估计 量 是 求 残 差 平方 和 > ，(y 一 g(x;,B))? 的 极 小 值 ,或 者 等 价 地 求 下 式 的 极 
小 值 : 
QW(B) —— 5 2 Cy — gx, B)) (5. 67) 
其 中 , 标 度 因子 1/2 简化 了 后 面 的 分 析 。 
若 进 行 微 分 , 则 得 到 NLS 一 阶 条 件 . 
9QN (8B) 1 ~ 9 gi; 
3 一 六 之 38> pi) 一 (5. 68 ) 
其 中 ,g; 二 g(x;,B)。 这 些 条 件 把 残 差 (y 一 g) 限 制 成 与 9g/96B 是 正 交 的 ,而 不 是 同 线 
性 情况 一 样 与 x 正 交 。 FAs 不 存在 显 式 解 , 却 可 利用 迭代 方法 进行 计算 (这 一 方法 
将 由 第 10 章 给 出 )。 
非 线性 回归 模型 能 用 矩阵 记号 以 更 简洁 的 方式 表述 ,对 观测 值 加 以 堆放 整理 ， 


得 到 : 
DR 
: | 一 | :| 十 | : (5. 69) 
VyN 上 UN 
其 中 ,g; 一 g(x;,B) ,或 者 等 价 地 有 : 
y—gTu (5. 70) 


这 里 ,y、g 以 及 u 均 表示 NX1 维 向 量 ,它们 的 第 i 个 元 率 分 别 为 yi、g; 以 及 u;。 于 
是 有 : 





1 / 
QN (GB)= oN(y 8) (y 一 8) 
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并 且 
9QN (BB) 1 gg 
98 NN 5547 g) (5,.71) 
其 中 
dg 虽 丰 委 JEN 
jo 9B 981 
ob _|. : 
36 (5. 72) 
og1 是 CSN 
38Bx Bk 


表示 g(x,B8)' 对 B 的 KXN 阶 偏 导数 和 矩阵 。 
5. 8.3 NLS 们 计量 的 分 布 


NLS 佑 计量 的 分 布 将 随 dgp 而 变化 。dgp 是 能 写成 下 式 并 具有 可 加 性 误差 岂 

的 非 线 性 回归 : 
yj; 二 g(Xi, Go) a (5.73) 

如 果 dgp 中 [Ly|xj 二 g(x,Bo), 那 么 条 件 均 值 就 被 正确 设 定 。 从 而 ,误差 一 定 满足 
Elul|lx|=0。 

给 定 NLS 一 阶 条 件 (5. 68) ,一 致 性 基本 条 件 (5. 25) 变 成 ， 
等 价 地 讲 , 给 定式 (5. 73) ,我 们 要 求 ELag(x， op x wj 一 0。 如 果 ELu|xj 二 0， 
那么 这 个 式 子 成 立 。 因 此 ,如 同 线 性 情况 一 样 ,一 致 性 要 求 对 条 件 均 值 的 正确 设 
定 。 然 而 , 若 ELu|xj 关 0, 则 实施 一 致 估计 ,需要 使 用 非 线 性 工具 方法 (将 在 6. 5 节 
阐述 ) 。 

VNCGus 一 Gu) 的 极限 分 布 可 利用 一 阶 条 件 (5. 68) 的 准确 一 阶 泰勒 级 数 展 式 
来 获得 。 对 于 位 于 Bus 与 Bo 之 间 的 某 个 6+ 。 对 式 (5. 18) 中 的 As 来 说 ,得 出 : 











加 /~—1 二 1 9 gi 一 
VCpus 一 6) = 一 (去 > 2 2 5 A ,) 
1 og; 
XX 一 一 —u; 
VNi=i9g 1a 





由 于 ELu|xj 二 0, 所 以 涉及 (9?g/93B9B') 的 项 被 去 掉 , 从 而 得 以 简化 。 因 而 ,我 们 
在 渐 近 形式 上 只 需要 考虑 : 








) 1 N og 
VNiS98 | 
这 与 OLS 的 形式 完全 一 样 ,只 是 x; 要 用 9g;/9B 1a 代替 ,参见 4. 4.4 节 。 这 就 得 
到 了 下 述 命题 , 它 类 似 于 OLS 估计 量 的 命题 4. 1。 
命题 5.6 (NLS 估计 量 的 分 布 ) 做 出 下 述 假 设 : 


~ Dp，Dpr， 
VN(Bws Bo) = ( 调 2 守 5 
i 一 1 
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™ wr 刘 国 ”了 和 


(DD) 模型 为 式 (5.73), 也 就 是 说 ,yi 一 g(xi, Go) 十 ui。 

(ii) 在 dgp 中 ,Elu;l|x jj 二 0 且 Efuw 1X] 一 人 ,其 中 ,bi oi; 。 

(111) 均值 函数 g(，) 满足 g(x,B) 二 g(x,B'), 当 且 仅 当 GD 一 C02) 。 
(iv) 姑 阵 : 


























1 og OB: 1 og ag, 
Au = plim > 98 : 一 plim 一 D3 和 志 a8 (5.74) 
存在 且 是 有 限 非 奇 异 的 。 
(v) N 5)” gg/98 Xx wl|a > Nro, Bo ,其 中 : 
TB 9g, plim 青 泪 98 
B, = plim 六 之 0 98 38 plim N 56 (5. 75) 











那么 ,NLS 估 计量 Bus 被 定义 成 一 阶 条 件 3Nr-:1 0 2g 0 的 根 , 它 关于 名 是 一 
致 航 ,上 朋 满 足 ， 


VCBs GD) 人 NTI0, ATIB AD (5. 76) 


条 件 人 GD 一 (ii 蕴含 回归 函数 被 正确 地 设 定 ,而 且 回 归 元 与 误差 项 是 不 相关 的 ， 
同时 B。 是 可 识别 的 。 误 差 可 以 是 异 方差 性 的 , 且 对 于 不 同 的 i 是 相关 的 。 条 件 
Giv) 与 人 v) 假 定 为 了 应 用 定理 53 而 必须 有 具备 的 限制 结果 。 为 使 条 件 (v) 得 到 满足 ， 
对 不 同 i 而 言 ,需要 在 误差 相关 上 施加 一 些 约束 。 式 (5.74) 与 式 (5.75) 中 的 关于 XX 
的 概率 极限 是 关于 dgp 的 ,如 果 XX 是 非 随 机 的 ,那么 概率 极限 就 是 常规 极限 。 

命题 5.6 中 的 矩阵 A 与 B。 和 4. 4.4 节 中 用 98g;/9B1a 代替 的 OLS 估计 量 
中 的 矩阵 Mx 与 Ma 一 样 。NLS 的 渐 近 理论 ,与 具有 如 此 变化 的 OLS 结果 相同 。 

在 球面 误差 下 ,人 2 一 21 ,因而 Bo 一 oho, 有 目 V[ Bs] 二 02As'。 于 是 , 非 线 性 
最 小 二 乘法 在 LS 估计 量 中 是 渐 近 有 效 的 。 然 而 , 横 截面 数据 的 误差 不 一 定 是 异 方 
差 的 。 

给 定 命题 5. 6, 得 到 的 NLS 估计 量 的 渐 近 分 布 表述 为 : 


Mus~ NIB, (DBD'D) DD’ QDD'D) (5.77) 
其 中 ,导数 矩阵 D 二 93g/93B' 1a 的 第 i 行为 9g8;/9B' |a [参见 式 (5. 72)]。 为 了 记号 简 


单 起 见 , 不 采用 在 Bo 处 的 计算 ,同时 我 们 假定 可 应 用 LLN, 因 此 ,定义 Au 与 B 中 
的 plim 算 子 可 用 limE 来 代替 ,然后 省 略 limit。 后 面 几 章 将 经 常 使 用 这 种 记号 。 


5.8.4 NLS 的 诱 差 佐 降 信 计 


我 们 考察 独立 误差 情形 下 常用 的 微观 经 济 计量 学 的 统计 推断 ,其 中 ,独立 误差 
具有 未 知 国 数 形式 的 异 方差 。 这 需要 命题 中 曾 定 义 的 一 致 佑 计量 。 
因为 Ao 不 涉及 误差 的 矩 ,对 于 式 (5. 74) 中 已 定义 的 A 来 说 ,可 直接 使 用 明显 








(5. 78) 
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MM 








A 
就 OLS 佑 计量 而 论 ( 参 见 4.4.5 节 ), 只 要 求 一 致 估计 KXK 阶 和 矩阵 和 B。。 这 并 不 
要 求 om 的 一 致 估计 , 即 和 式 中 的 N 个 分 量 。 

在 怀特 (White，1980b) 给 出 的 条 件 下 ,下 式 : 























B= LY oe 8， ,一 丰台 ~ og - 
D3: 30 (5.79) 
关于 B, 是 一 致 的 ,其 中 Ui Yi p(X;, A) ? 6B 关 于 Bo 是 一 致 的 ,同时 : 
人 一 Diag[ i | (5. 80 ) 


给 出 一 些 条 件 。 这 就 导致 下 述 NLS 估计 量 的 渐 近 方差 矩阵 的 异 方差 性 一 致 估 
计 值 : 


VLBus]=(DD)-D'QDCODD)-: (5. 81) 
其 中 人 =ag/aG'13。 该 式 与 4.4. 5 节 中 的 结果 一 样 ,只 是 要 用 万代 替 回归 元 X。 
在 实际 应 用 中 ,可 使 用 校正 的 自由 度 , 因 此 , 式 (5. 79) 中 的 了 是 用 (CN 一 并 ) 去 除 , 而 
不 是 用 NN 去 除 。 那 么 , 式 (5. 81) 的 右边 项 应 该 用 NVCON 一 氏 ) 去 乘 。 
对 于 不 同 1,5. 8.7 节 将 给 出 误差 相关 情况 的 推广 。 
3. 8.3 持 数 右 妇 例子 


举 一 个 事例 ;假定 给 定 x 时 >» 具有 指数 条 件 均 值 ， 因而 El y | X | 一 exp(x 8 ) 。 
此 模型 能 表述 成 一 个 非 线 性 回归 : 


y 一 exp(XD) 十 & 


其 中 ,误差 项 uu 满足 ELu|xj 二 0, 并 且 误 差 是 潜在 异 方差 性 的 。 
NLS 们 计量 具有 一 阶 条 件 : 


和 2 (yy 一 exp(xiG))exp(xG)x 一 0 (5. 82) 


因此 , Ps 的 一 致 性 只 要 求 条 件 均值 被 正确 设 定 , 满 足 E[y|x] 一 exp(x Bo)。 这 里 ， 

9g/9B 二 exp(x BB)x, 所 以 一 般 NLS 结果 (5. 81) 会 产生 异 方差 性 稳健 的 估计 值 。 
VLBis] = (DD) exx’) D) trewAxxi ex ) (5.83) 

其 中 ,ti 一 y; 一 exp(xiBnis)。 

5. 8.6 加 权 NLS 与 FGNLS 


对 于 横 截 面 数 据 来 说 ,误差 经 党 是 异 方 差 性 的 。 于 是 ,就 控制 异 方差 性 而 言 ， 
可 行 广义 NLS 比 NLS 更 加 有 有效 。 
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-= 


与 ML 相 比 ,可 行 广义 非 线 性 最 小 二 乘法 (FGNLS) 通 常 还 是 差 一 些 。 一 个 著 
名 的 例外 是 , 当 y 的 条 件 密度 是 LEF 密度 时 ,FGNLS 渐 近 地 等 价 于 MLE。 一 种 
特殊 情况 是 ,FGLS 渐 近 地 等 价 于 正 态 性 下 线性 回归 中 的 MLE。 

可 行 广义 非 线性 最 小 二 乘法 

可 行 广义 非 线性 最 小 二 乘法 估计 量 BeNms 使 : 


Quv(9)= 一 去 (Gy 一 9 ) -1(Y 一 g) (5. 84) 


极 大 化 ,其 中 ,假定 ELuu |x=QG7o) ,并 且 了 表示 7。 一 致 估计 量 。 

如 果 对 NLS 佑 计量 做 出 的 假设 得 到 满足 ,同时 事实 上 Q =QC7yo)，, 那 么 
FGNLS 佑 计量 是 一 致 的 且 渐 近 正 态 的 ,其 估计 渐 近 方差 矩阵 已 由 表 5. 6 给 出 。 方 
差 矩 阵 估 计 值 类 似 于 线性 FGNL 的 结果 [XQ(Y) X]-: ,只 是 用 D==9g/9B"| 3 来 
代 符 XX。 

表 5.6 非 线性 最 小 二 乘法 估计 量 与 其 渐 近 方差 


估计 量 目标 函数 。 估计 渐 近 方差 
NLS QW) = su (DD) -Dy PD'D) 
FGNLS QFN7) -ia (DO-'D) 
”一 上 ”可 一 1 T1111INN TINnY 1 
WNLS QA) = (DE-1D) -DE QF DD DS!D) 


a 函数 是 关于 非 线 性 回归 模型 的 ,其 误差 u=y 一 g 已 由 式 (5. 70) 和 误差 条 件 方差 矩阵 QQ 定义。 户 表 示 
关于 有 的 条 件 均值 向 量 导 数 在 8B“ 处 的 计算 值 。 对 于 GFNLS 来 说 ,假定 站 关于 Q 是 一 致 的 。 对 于 NLS 与 
WNLS 来 说 , 异 方差 性 稳健 方差 矩阵 使 用 0Q, 而 只 等 于 对 角 线 为 残 差 平方 的 对 角 和 矩阵 ,其 估计 值 关 于 Q 不 必 是 
一 致 的 。 


FGNLS 估计 量 是 求 二 次 损失 消 数 形式 (y 一 g) V(y 一 g) 极 小 化 估计 量 中 最 有 
效 的 一 致 佑 计量, 其 中 ,V 表示 加 权 和 矩阵 。 

一 般 来 讲 , 实 施 FGNLS 需要 N XN 阶 和 矩阵 2(3) 的 形式 。 对 很 大 的 NN 来 说 ， 
这 在 计算 上 是 不 可 行 的 ,但 在 实际 应 用 中 ,通常 Q(7Y) 具 有 对 角 结 构 , 从 而 导致 其 
逆 具 有 解析 解 。 

加 权 NLS 

若 8% 模型 被 错误 设 定 , 则 尽管 FGNLS 方法 是 完全 有 效 的 , 却 会 产生 无 效 的 
标准 误差 估计 。 此 外 ,我 们 考察 介 于 NLS 与 FGNLS 之 间 的 一 种 方法 , 即 对 误差 
的 方差 矩 阵 模型 加 以 设 定 , 却 获 得 稳健 的 标准 误差 。 这 种 讨论 反映 在 4. 5. 2 节 中 。 

加 权 非 线性 最 小 二 乘法 估计 量 Bs 使 : 


/ 1 / 
QN (BB) Ny 8) T (y—g) (5. 85) 


极 大 化 ,其 中 ,也 = 27) 表 示 实 用 误差 方差 矩阵 瑟 一 互 (了 ), 其 中 ,了 表示 7 的 估计 
值 ,而 且 在 背离 FGNLS 情况 下 ,有 天 2。 

在 类 似 于 对 NLS 估计 量 所 做 的 那些 假设 下 ,同时 假定 二 二 plim 允 , WNLS 估 
计量 是 一 致 的 且 渐 近 正 态 的 ,其 估计 渐 近 方差 矩阵 已 由 表 5. 6 给 出 。 
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这 种 估计 量 称 为 WNLS, 用 以 区 分 它 与 FGNLS 的 差别 ,这 里 假定 玉 二 82。 束 
有 效 性 而 言 , 人 们 希望 WNLS 估计 量 位 于 NLS 和 FGNLS 之 间 , 如 果 误 差 方 差 扼 
阵 模型 选择 不 好 , 它 的 有 效 性 就 不 如 NLS。NLS 与 OLS 估计 量 都 是 满足 五 一 到 
的 WNLS 特殊 情况 。 

异 方差 性 误差 

异 方差 性 的 一 个 明显 实用 模型 是 用 二 E[wi |xi 二 exp(ziYyo), 其 中 ,向 量 z 表示 
x 的 特定 函数 (例如 ,选取 x 的 一 些 分 量 ) ,并 且 利 用 指数 形式 确保 正 的 方差 。 

于 是 ,了 =Diag[exp(zv )], 而 瑟 一 Diag[exp(z 了 )], 其 中 ,了 可 通过 NLS 残 差 
平方 和 (y, 一 g(x;, Bas))? 对 exp(zi3 ) 的 非 线性 回归 来 获得 。 由 于 马 是 对 角 的 ， 

一 Diag[1/c: ]。 于 是 , 式 (5. 84) 可 以 简化 ,而 WNLS 估计 量 使 


条 2 
Quv() =— a Ee 2 2 (5. 86) 
一】 1 


极 大 化 。 
由 表 5. 6 给 出 的 WNLS 估计 量 的 方差 矩阵 导致 . 


~ ~ N ] ~ ~， 一 】 上 _ la N 1 一 1 
VL ws = (2 六 dd ) (2 3 7 da ) (2 Fd 人 (5. 87) 


其 中 ,d 一 DegrCX ,BG)/908|3, mi — VY; (x 记 ，) 表 示 残 差 在 实际 应 用 中 ， 可 使 
用 修正 的 自由 度 , 因 而 式 (5. 84) 的 右边 可 用 N/CN 一 天 ) 去 滋 。 倘 知 做 出 比较 强 的 
假设 2 一 mw , 则 WNLS 变 成 FGNLS, 并 且 : 


~ ~，] - -人 \ 一 1 
VL Geoms 一 (2 dd) (5. 88) 
i=1 Oi 


可 利用 NLS 程序 计算 WNLS 与 FGNLS 佑 计量。 前 先 , 做 y; 对 g(x%i,B) 的 
回归 。 其 次 ,如 果 避 二 exp(z/y) ,那么 通过 (y; 一 g(xi;, Bs))? 对 exp(zT ) 的 NLS 
回归 来 获得 y 。 再 次 ,实施 y;/6; 对 g (x,B)/6; 的 NLS 回归 ,6? 二 exp(z; 了 了 )。 这 
等 价 于 对 式 (5. 86) 求 极 大 值 。 源 自 这 种 变换 回归 的 怀特 稳健 三 明治 标准 误差 给 出 
了 基于 式 (5. 87) 的 稳健 标准 误差 。 通 常 , 源 自 这 种 变换 回归 的 非 稳健 标准 误差 , 则 
给 出 基于 式 (5. 88) 的 FGNLS 标准 误差 。 

对 异 方 差 性 误差 而 言 ,一 种 非常 引 人 注 目的 方法 是 ,进一步 探讨 并 利用 2 一 
Diag[ i | 来 完成 FGNLS。 然 而 ,这 将 得 到 Bu 的 非 一 致 参数 估计 值 ,因为 y; 对 
g(x; ,3) 的 回归 会 简化 成 y;/| 吉 | 对 g(x,B)/1| 的 FGNLS 回归 。 此 技术 因 回 归 
元 与 误差 项 之 间 相 关 的 基本 问题 而 受到 损失 。 一 - 些 可 供 选 择 的 半 参 数 方 法 将 在 
9.7.6 节 加 以 阐述 ,这 些 半 参 数 方法 不 用 对 92 的 函数 形式 进行 设 定 , 而 是 允许 同 
可 行 GLS 一 样 有 效 的 佑 计量 。 

广义 线性 模型 

实施 加 权 NLS 方 法 ,需要 对 实用 和 矩阵 进行 合理 的 设 定 。 前 面 曾经 阐述 的 特别 
方法 是 , 令 6? 二 exp(ziY ) ,其 中 ,z 通常 表示 x 的 子 集 。 例 如 ,在 工资 对 受 教 育 与 其 
他 控制 变量 的 回归 中 ,我 们 可 以 把 蜡 方差 性 更 直接 地 建 模 成 只 有 几 个 回归 元 的 限 
数 , 回 归 元 中 最 著名 的 是 受 教育 程度 。 
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某 些 类 型 的 模 截 面 数 据 , 提供 了 使 异 方差 性 成 为 极为 简约 的 正常 模型 。 例 如 ， 
对 计数 而 言 , 泊 松 密度 设 定 方差 等 于 均值 ,因而 ?二 g(x;,B)。 这 提供 了 异 方差 性 
的 实用 模型 ,与 那些 用 于 对 条 件 均 值 进行 建 模 的 情况 相 比 ,这 样 做 不 必 引 人 更 多 的 
参数 。 

这 种 把 方差 实用 模型 设 为 均值 函数 的 方法 ,当然 会 出 现在 广义 线性 模型 之 中 ， 
这 已 经 由 5.7.3 节 和 5.7.4 节 引进 。 由 式 (5. 63), 建 立 在 LEF 密度 基础 上 的 准 
MLE 的 一 阶 条 件 具 有 下 述 形式 : 

AN yi— g(x,B) 9g(x;,B) 
2 8 = 

其 中 ,假定 玫 =[Lc (g(xi,B))] :对 应 于 特殊 GLM 方差 函数 [参见 式 (5. 60)]。 例 
如 , 泪 松 分 布 . 贝 努 利 分 布 以 及 指数 分 布 的 分 别 等 于 g;、g;(1 一 g;) 以 及 17/g2 ,其 
中 ,g;=g(xi, 8B). 

在 考虑 8 与 6;? 独立 性 的 第 一 步 中 ,就 能 求解 这 些 一 阶 条 件 。 在 比较 简单 的 两 
步 方法 中 ,给 定 8 的 初始 NLS 估计 值 , 人们 可 计算 二 cc (g(x, )), 然 后 实施 
yi/5i; 对 g(x%;,B)/6i 的 加 权 NLS 回归 。 所 得 到 的 B 估 计量 渐 近 地 等 价 于 直接 求 
解 准 MLE| 参见 古里 耶 克 斯 、 蒙 福特 和 特 罗 农 (Gouriéroux，Monfort, and Trog- 
nan，1984a) ,或 者 卡 梅 伦 和 特 里 维 迪 (Cameron and Trivedi,1986)]。 因 而 , 当 密 
度 是 LEF 密度 时 ,FGNLS 渐 近 地 等 价 于 ML 估计 。 为 了 预防 对 6? 错误 设 定 , 推 
呆 建 立 在 稳健 三 明治 标准 误差 的 基础 上 ,或 者 令 ==a[c Cg，G))] 其中, 
估计 值 已 由 5. 7.4 节 给 出 。 


5.8.7 肝 间 序列 


命题 5. 6 中 的 一 般 NLS 结果 可 应 用 于 所 有 数据 类 型 ,包括 时 间 序 列 数据 。 方 
差 乍 阵 舍 计 的 后 续 结 果 是 ,关注 于 横 截 面 的 异 方差 性 误差 问题 ,但 是 ,对 它们 很 容 
多 加 以 改进 , 以便 适合 具有 序列 相关 误差 的 时 间 序 列 的 问题 。 实 际 上 ,对 时 间 序 列 
情 帝 利用 谱 方 法 的 稳健 方差 矩阵 估计 结果 ,要 优先 于 那些 横 截 面 的 情况 。 
时 间 序 列 非 线性 回归 模型 是 . 
y=—=gX OTTu, t=l,,T 


如 果 误 差 wu 是 序列 相关 的 ,一 种 普遍 做 法 是 使 用 自 回 归 移 动 平均 (autoregressive 
moving average) 或 者 ARMA(p, 9g) 模型. 
及 一 OU-1 十 十 ooU ste tarerit age, 


其 中 ,e, 表示 均值 为 0 且 方 差 为 o2 的 iid,ARMA 对 模型 参数 施加 约束 ,以 确保 平 
稳 性 和 可 逆 性 。ARMA 误差 模型 态 含 一 种 特殊 结构 ,误差 方差 矩阵 避 一 PCp,a )。 
在 时 间 序 列 情况 下 ,ARMA 模型 提供 了 g 的 良好 模型 。 与 之 相 比 ,在 横 截 面 
情况 下 ,正确 地 对 异 方差 性 建 模 更 为 困难 ,这 就 导致 对 并 不 需要 对 @ 模型 进行 设 
定 的 稳健 推断 进行 更 多 的 强调 。 
如 果 误 差 既 是 异 方差 性 的 又 是 序列 相关 的 ,会 怎么 样 呢 ? 如 果 误 差 是 序列 相 
关 的 ,那么 NLS 估计 量 尽管 是 无 效 的 , 却 是 一 致 的 , 倘 丰 XX 没 有 包括 滞后 因 变 量 ， 
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在 此 情况 下 , 它 变 成 非 一 致 的 。 假 定 仅 仅 是 譬如 /个 滞后 的 序列 相关 ,怀特 和 多 莫 
维 次 (White and Domowitz，1984) 推 广 了 式 (5. 79), 以 便 获 得 给 定 异 方差 性 和 未 
若 隙 数 形式 的 序列 相关 时 ,NLS 估计 量 的 方差 矩阵 的 稳健 估计 值 。 在 实际 应 用 
中 ,使 用 归功 于 纽 韦 和 韦 斯 特 (Newevy and West，1987b) 的 稍微 精炼 的 形式 。 这 种 
精炼 就 是 重新 标 度 , 以 确保 方差 矩阵 估计 值 是 半 正 定 的 。 人 们 还 提出 其 他 几 种 精 
炼 ,并 且 放 松 固定 滞后 长 度 的 假设 ,因此 ,/ 一 ce 会 以 比 N 一 oo 充分 低 的 速率 进行 ， 
这 是 可 能 的 。 这 可 以 使 误差 有 AR 成 分 。 


5.9 例子 : ML 与 NLS 估计 


极 大 似 然 估计 与 NLS 估计 ,标准 误差 计算 以 及 解释 系数 , 均 可 以 利用 模拟 数 
据 来 加 以 阐述 。 


5.9.1 模型 与 估计 量 


指数 分 布 用 于 连续 正 的 数据 ,譬如 第 17 章 将 研究 的 著名 持续 期 间 数 据 。 指 数 
密度 是 指 : 
f(y)—=Ae Ss, y>0, A>0 
其 均值 为 1/4, 方 差 为 14。 我 们 通过 令 : 
和 一 exp(X 8) 
把 回归 元 引入 到 此 模型 中 ,这 确保 4 二 0。 注 意 到 ,这 蕴含 : 
El ylx|~—=exp(—x B) 
相反 ,一 种 可 供 选 择 的 参数 化 设 定 ELy|xj 一 exp(x B8), 因 此 ,4 一 exp(x B)。 注 意 ， 
指数 可 以 通过 两 种 不 同方 式 使 用 :用 于 密度 与 条 件 均 值 。 
来 日 y 对 x 回归 的 OLS 人 和 佑 计量 是 非 一 致 的 ,这 是 因为 , 当 回 归 消 数 实际 上 是 
指数 曲线 时 , 它 却 拟 合 二 线 。 
人 们 很 容易 获得 MLE。 对 数 密 度 是 In f(ylx) 一 x 8 一 y exp(x 6B), 从 而 ML 
一 阶 条 件 N 2;(1 一 wexp(xG))x 一 0, 或 者 : 
;:— exp(— x 8) 
ND 人 志 人 


为 了 实施 NLS 回归 ,注意 到 ,模型 还 能 写成 非 线 性 回归 : 
y 一 exp( 一 X DG) 十 zx 


其 中 ,误差 项 具有 ELu|xj 二 0, 尺 管 它 是 异 方差 的 。 这 个 模型 指数 条 件 均 值 的 一 
阶 条 件 , 除 了 符号 相反 之 外 ,已 由 式 (5. 82) 给 出 ,而 且 它 显然 导致 了 不 同 于 MLE 
的 估计 量 。 

举 一 个 加 权 NLS 的 例子 ,我 们 假定 误差 方差 是 与 均值 成 比例 的 。 于 是 ,实用 
方差 是 VLyj] 一 ELyj, 而 加 权 最 小 二 乘法 可 通过 yi/6; 对 exp( 一 XB)/6; 的 NLS 
回归 来 实施 ,其 中 ,估计 量 8? 二 exp( 一 x Bus) 的 有 效 性 不 如 MLE, 并 且 比 NLS 更 
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有 效 或 不 如 NLS 有 效 ， 

这 里 ,由 于 我 们 知道 dgp, 所 以 能 实施 可 行 广义 NLS。 因 为 对 于 指数 密度 而 
育 ,VLyj] 二 1/X, 所 以 方差 等 于 均值 平方 ,由 此 可 得 Viu|x] 二 [exp( 一 x 6B) 了 ]。 
FGNLS 估计 量 通 过 58? = 一 [exp (一 x/Bms) 上 来 估计 避 , 并 且 能 借助 y;/6; 对 
exp( 一 XB)/6; 的 NLS 回归 来 实施 。 通 常 , FGNLS 的 有 效 性 不 如 MLE 的 有 效 
性 。 在 这 个 例子 中 ,由 于 指数 密度 是 LEF 密度 ,所 以 它 确实 是 完全 有 效 的 (参见 
5. 8. 6 市 末尾 的 讨论 )。 


5. 9.2 模拟 与 结 黑 
为 了 简单 起 见 , 我 们 考察 一 个 截 距 与 一 个 回归 元 的 回归 。 数 据 生成 过 程 是 : 


y|x~expl 2 
1 一 exp(B 十 Px) 


其 中 ,z~NWL1,， 1 ] 且 (8 ,8 ) 一 (2, 一 1)。 为 了 最 小 化 起 因 于 抽样 变量 异性 的 估计 
差异 ,特别 是 标准 误差 ,抽取 一 个 样本 量 为 10 000 的 大 样本 。 就 此 处 特定 样本 而 
言 ,y 的 样本 均值 是 0. 62 ,而 y 的 样本 标准 差 是 1. 29。 

表 5.7 给 出 OLS、ML、NLS、.WNLS 和 FGNLS 的 估计 值 。 还 给 出 三 种 不 同 的 
标准 误差 估计 值 。 默 认 回 归 产 出 得 到 非 稳健 的 标准 误差 ,这 已 在 括号 中 已 给 出 。 
对 于 OLS 与 NLS 估计 量 来 说 ,假定 了 iid 误差 ,此 处 为 不 正确 的 假设 ;而 对 MLE 
来 说 ,施加 了 IM 等 式 , 此 处 为 有 效 假设 ,因为 被 假定 的 密度 是 dgp。 方 括号 中 已 给 
出 的 稳健 标准 误差 使 用 稳健 三 明治 方差 估计 NIAH:BopAil, 其 中 ,Bo 表示 式 
(5. 38) 中 给 出 的 外 积 人 和 估计。 这些 估 计 和 值 是 异 方差 性 一 致 的 。 对 于 NLS 估计 量 的 
标准 误差 来 说 ,一 种 可 供 选 择 的 更 好 的 估计 已 在 大 括号 中 给 出 (将 在 下 一 节 进 行 解 
释 )。 此 处 ,前面 阐述 的 标准 误差 估计 值 在 计算 A 与 B 时 ,使 用 了 数值 推导 而 不 是 
解析 推导 。 


表 5.7 ”指数 事例 :最 小 二 乘法 与 估计 * 


估计 量 
变量 OLS MI. NLS WNLS FGNLS 
常数 一 0. 009 3 1. 982 9 1. 887 6 1. 990 6 1. 9840 
(0.016 1) (0.014 1) (0. 030 7) (0. 022 5) (0. 014 8) 
[0.017 2] [0. 014 4] [0. 142 1 [0. 035 9] [0.014 6] 
x 0. 619 8 一 0. 989 6 一 0. 957 5 一 0. 996 1 一 0. 990 ?7 
(0. 011 3) (0. 009 9) (0. 009 7) (0. 009 8) (0. 010 0) 
[0. 025 4 | [0. 009 91 | 0. 061 2 | | 0. 022 4 | [0.010 1 
{0. 088 0)} 
LnL 一 一 208.71 一 232. 98 一 208. 93 一 208. 72 
R? 0. 232 6 0. 3906 0. 391 3 0. 390 2 0. 390 6 


a 除了 OLS 之 外 ,所 有 估计 量 都 是 一 致 的 。 三 种 可 供 选 择 的 标准 误差 估计 值 都 已 给 出 ,小 括号 中 为 非 
稳健 估计 值 , 方 括号 中 为 稳健 外 积 的 估计 值 , 而 大 括号 中 为 可 供 选择 的 稳健 估计 值 。 条 件 是 指数 分 布 的 ,其 
截 距 为 2 且 斜 率 为 一 1。 样 本 量 为 N 二 10 000。 
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.5.9.3 仿 计 什 与 标准 误 考 的 比 歼 


OLS 估计 量 是 非 一 致 的 ,得 出 的 估计 值 在 指数 dgp 下 与 (B ， pe) 不 相关 。 

剩 下 的 估计 量 都 是 一 致 的 ,而 MLJNLS.WNLS 以 及 FGNLS 佑 计量, 都 位 于 
真实 参数 值 (2， 一 1) 的 两 个 标准 误差 之 内 ,其 中 ,对 于 NLS 来 说 ,必须 使 用 稳健 标 
准 误差 。FGNLS 佑 计 值 十 分 接近 ML 佑 讨 值 , 即 在 LEF 中 利用 dgp 的 结果 。 

对 MLE 而 言 , 非 稳健 标准 误差 与 稳健 标准 误差 都 非常 相似 。 正 如 入 们 所 希 
望 的 ,它们 是 渐 近 等 价 的 (因为 如 果 MLE 是 建立 在 真实 密度 的 基础 上 ,信息 矩阵 
等 式 就 成 立 ) 。 而 此 时 的 样本 量 是 很 大 的 。 

对 NLS 而 言 , 非 稳健 的 标准 误差 是 无 效 的 ,因为 dgp 具有 异 方差 性 误差 ,并 且 
高 佑 了 NLS 估计 值 的 准确 性 。NLS 的 稳健 方差 矩阵 估计 和 值 的 公式 已 由 式 (5. 81) 
给 出 ,其 中 ,QQ 二 Diag[ 如 ]。 使 用 QQ 二 Diag[ ELw 的 一 种 可 供 选 择 的 方法 由 大 括号 
给 出 ,其 中 ,EE[w ] 二 [exp( 一 xiB)]:。 对 斜率 函数 而 言 ,两 个 估计 值 0.061 2 与 
0. 088 0 确实 不 同 。 因 为 并 二 《y; 一 exp(x{B))? 不 同 于 exp[ (一 XB) 下 ,所 以 才 出 现 
这 种 差异 。 更 一 般 地 讲 , 其 至 在 相当 大 的 样本 中 ,利用 外 积 人 和 估计 的 标准 误差 是 有 偏 
的 。NLS 的 有 效 性 相当 不 如 MLE 的 有 效 性 。 其 标准 误差 为 利用 大 括号 中 更 可 取 
的 估计 值 MLE 的 那些 款 准 误差 的 许多 倍 。 

WNLS 估计 量 没 有 使 用 异 方差 性 的 正确 模型 ,因此 ,其 非 稳健 的 标准 误差 与 稳 
健 的 标准 误差 再 次 出 现 不 同 。 一 且 利 用 稳健 的 标准 误差 ,WNLS 俩 计量 就 比 NLS 
估计 量 更 有 效 , 但 不 如 MLE 估计 量 有 效 。 

在 这 个 事例 中 ,已 知 位 于 LEF 中 的 dgp 的 结果 佑 计量 ,FGNLS 与 MLE 估计 
量 是 一 样 有 效 的 。 此 结果 表明 ,FGNLS 的 系数 及 标准 误差 非常 接近 于 MLE 的 情 
况 。 对 FGNLS 估计 量 而 言 ,正如 和 人们 所 料 , 稳 健 标 准 误差 与 非 稳 健 标 准 误差 本 质 
上 是 相同 的 ,因为 它 正 确 设 定 了 异 方 差 性 模型 。 

表 5. 7 还 报告 出 估计 对 数 似 然 ,In 工 一 也;[ 允 DO 一 exp( 一 %D)y], 而 及 :一 1 一 
Dy 一 7/ 可 (Cy; 一 5)? 测量 在 ML、NLS、WNLS 以 及 FGNLS 估计 值 处 的 计算 
值 ,其 中 ,5》; 二 exp( 一 xiB)。 各 种 模型 的 R? 略 有 不 同 , 对 NLS 估计 量 来 说 是 最 小 
的 ,如 同人 们 期 望 的 ,这 是 因为 NLS 对 2 (yy 一》 六 求 极 小 化 。 正 如 人 人 们 所 料 , 通 
过 MLE 求 对 数 似 然 极 大 值 ,对 NLS 估计 量 而 言 是 相当 小 的 。 


5.9.4 解 杰 系数 


关注 内 容 在 于 , 当 二 变化 时 所 引起 的 ELy1zj 变动 。 我 们 考察 由 表 5.7 给 出 
记 一 一 0. 99 ML 的 估计 值 。 

条 件 均 值 sxp( 一 一 记 z) 是 单 指标 形式 ,因此 ,如 果 具 有 系数 记 的 邦 外 回归 
元 z 被 包括 进来 ,那么 z 变化 1 个 单位 的 边际 效应 是 xz 变化 1 个 单位 所 引起 边际 
效应 的 By/Bo 倍 ( 参 见 5. 2. 4 节 )， 

条 件 均 值 关于 x 是 单调 递减 的 ,因而 B 的 符号 与 边际 效应 的 符号 相反 (参见 
5. 2. 4 节 )。 这 里 ,zx 增 大 的 边际 效应 引起 条 件 均值 增 大 ,这 是 因为 记 是 负 的 。 

现在 ,我 们 利用 微分 法 考察 x 变化 引起 的 边际 效应 。 这 里 ,9E[Ly|xj/3x= 
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一 B&exp( 一 x B) 随 着 点 xz 计算 值 变化 而 变动 ,在 样本 中 其 范围 从 0. 01 一 19. 09。 样 
本 平均 响应 是 0.99 N -! 台 ,exp(x6B) = 二 0. 61。 响 应 在 样本 均值 处 的 计算 值 为 
0. 99Xexp(x 9) 二 0, 37, 这 显得 相当 小 。 由 于 9E[y|xj/9x 二 一 BE[Ly|xj, 边 际 效 
应 的 男 外 一 个 估计 值 是 0. 99y 一 0. 61。 

有 限 差分 法 会 产生 不 同 的 估计 边际 效应 。 当 Azx 二 1 时 ,我 们 可 得 到 
AE[y|xj 一 (eS 一 1)exp( 一 x B )( 参 见 5. 2. 4 节 )。 这 得 出 样本 的 平均 响应 是 
1. 04, 而 不 是 0. 61。 然 而 ,如 果 Az 很 小 ,有 限 差分 法 与 微分 法 是 一 致 的 。 

前 面 的 边际 效应 是 可 加 的 。 对 于 指数 条 件 均值 来 说 ,我 们 还 可 以 考察 乘法 或 
比例 的 边际 效应 (参见 5. 2. 4 节 )。 例 如 ,z 变化 0. 1 个 单位 ,会 预测 ELy|zj 的 增 
大 比例 为 0. 1X0. 99 或 增 大 9. 9%。 同 理 , 有 限 差分 法 将 会 产生 不 同 的 估计 值 。 

这 些 测 量 中 , 哪 一 个 是 最 有 用 的 呢 ? 对 单 指 标 形 式 加 以 约束 是 非常 有 用 的 ,这 
是 因为 回归 元 的 相对 影响 能 够 被 立刻 计算 出 来 。 对 响应 数值 来 说 ,最 准确 的 是 , 利 
用 非 微 分 法 ,计算 出 回归 元 变化 c 个 单位 时 样本 的 平均 响应 ,其 中 ,数值 c 是 一 个 
有 意义 的 数量 ,比如 z 变 化 一 个 标准 差 。 

对 于 NLS、WNKS 和 FGNLS 估计 值 来 说 , 可 进行 类 似 计算 ,得 出 相似 结 采 。 
对 OLS 估计 量 而 言 ,注意 到 ,z 系数 能 被 解释 为 x 变化 时 样本 平均 边际 效应 (参见 
4.7.2 节 )。 这 里 ,OLS 估计 值 pp 二 0. 61 与 前 面 利用 指数 MLE 计算 出 的 样本 平均 
响应 的 两 位 小 数值 相同 。 这 里 的 OLS 提供 了 样本 平均 边际 效应 的 良好 估计 值 , 尺 
管 对 xz 的 任何 特殊 值 而 言 , 它 提供 了 边际 响应 非常 不 好 的 估计 值 。 


5. 10 ”应 用 人 研究 


为 了 获得 5. 6. 1 节 引 入 的 标准 模型 极 大 似 然 估 计量 ,大 多 数 经 济 计量 学 软件 
包 都 提供 简单 的 命令 。 对 其 他 密度 而 言 , 许 多 软件 包 都 提供 ML 程序 ,为 用 户 配备 
了 密度 方程 以 及 可 能 的 一 阶 导 数 甚 至 二 阶 导数 。 类 似 地 ,就 NLS 而 言 ,软件 包 给 
出 NLS 程序 的 条 件 均 值 方程 。 对 于 一 些 非 线性 模型 及 数据 集 来 说 ,软件 包 中 配备 
的 ML 与 NLS 程序 在 求 估 计 值 时 会 遇 到 计算 上 的 困难 。 在 这 种 背景 下 ,有 必要 使 
用 作为 外 接 式 附件 GAUSS、Matlab 和 OX 的 更 稳健 的 最 优化 程序 。GAUSS、 
Matlab 和 OX 是 非 线性 建 模 的 较 好 工具 ,但 要 投入 较 大 的 初始 学 习 成 本 。 

对 于 横 截 面 数 据 来 说 ,使 用 基于 方差 窍 阵 的 三 明治 形式 标准 误差 已 成 为 标准 
方法 。 这 些 是 经 常 提供 的 命令 选项 。 就 NL 佑 计量 而 言 , 这 给 出 异 方 差 性 一 致 的 
标准 误差 。 对 极 大 似 然而 言 ,人 们 应 该 认识 到 ,除了 需要 使 用 三 明治 误差 以 外 ,对 
密度 的 错误 设 定 会 导致 非 一 致 性 。 

通常 ,不 能 直接 对 非 线 性 模型 的 参数 给 予 解释 ,并 且 , 一 种 好 的 做 法 是 另外 计 
算 回 归 元 上 的 变动 引起 的 隐 含 边际 效应 (参见 5. 2.4 节 ) 。 有 些 软件 包 会 目 动 进行 
这 种 计算 ,对 其 他 几 种 后 估计 方法 来 说 ,需要 利用 已 保存 的 回归 系数 进行 编码 。 


5. 11 文献 注释 


关于 极 值 估计 量 的 渐 近 理论 研究 成 果 , 纽 韦 和 表 克 法 登 (Newey and McFad- 
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den，1994, 第 2115 页 ) 给 出 了 简略 历史 。 雨 宫 (Amemiya，1973) 对 重要 的 经 济 计 
量 学 进展 给 出 评价 , 雨 宫 发 展 了 可 用 于 Tobit 模型 MLE 的 一 般 定理 。 有 益 的 教科 
书 式 长 篇 评论 ,包括 由 加 伦 特 (Gallant，1987) 、 加 伦 特 和 怀特 (Gallant and White， 
1987) . 比 勒 斯 (Berens,1993) 以 及 怀特 (White，1994,2001a) 撰 写 的 著作 。 

许多 书 都 曾 给 出 统计 基础 ,包括 雨 宫 (Amemiya，1985 ,第 3 章 ) .戴维森 和 才 
金 农 (Davidson and MacKinnon，1993 ,第 4 章 ) .格林 (Greene，2003 ,附录 DD). 戴 
维 条 (Davidson，1994) 以 及 扎 曼 (Zaman,1996) 。 

5.3 一 般 极 值 估 计 结 果 的 表述 大 量 地 利用 雨 官 (Amemiya，1985, 第 4 章 ) 的 
成 果 , 但 在 扩展 程度 上 远 不 如 纽 韦 和 麦克 法 登 (Newey and McFadden，1994) 。 后 
者 的 参考 书 是 非常 综合 的 。 

5.4 ” 售 计 方程 用 于 广 闵 线性 模型 文献 之 中 [参见 麦 卡 拉 和 内 尔 德 (McCullagh 
and Nelder，1989) ]。 经 济 计量 学 家 把 这 些 内 容 归 入 广义 矩 方法 中 (参见 第 6 章 )。 

5.5 第 7 章 将 详细 阐述 统计 推断 。 

5.6 ML 估计 的 一 般 结 果 , 参 见 费 希 尔 的 开创 性 文章 (Fisher，1992) ,包括 有 
效 性 和 似 然 法 与 反 概 率 或 贝 叶 斯 方法 .和 矩 方法 估计 的 比较 。 

5.7 现代 应 用 中 ,经 党 使 用 准 ML 框架 以 及 方差 矩阵 的 三 明治 估计 [参见 怀 
符 (White，1982,1994) ]。 在 统计 学 中 ,此 方法 称 为 广义 线性 模型 , 麦 卡 拉 和 内 尔 
德 (McCullagh and Nelder，1989) 的 书 已 成 为 标准 参考 书 。 

5.8 类 似 于 NLS 估计, 方差 矩阵 的 三 明治 估计 值 用 于 需要 相对 弱 的 假设 的 
误差 过 程 中 。 在 经 济 计 量 学 中 ,由 怀特 (White，1980a，c) 扎 写 的 论文 对 统计 推断 
产生 了 重大 影响 。 渐 近 理 论 的 推广 与 详细 评述 则 由 怀特 和 多 英 维 淆 (White and 
Domowitz，1984) 给 出 。 雨 官 (Amemiya，1983) 对 非 线 性 回归 进行 了 全 面 评 述 。 
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5 -1 假定 我 们 得 到 可 以 产生 预测 条 件 均 值 的 模型 估计 值 EL[Ly|x] 二 exp(1 十 
0. 017z)/[L1 十 exp(1 十 0. 01x)]。 假 定 有 容量 为 100 的 样本 , 取 值 为 整数 值 1,2,…， 
100。 求 下 述 估计 边际 效应 9E[y|xj/3z 的 估计 值 。 

(a) 所 有 观测 值 的 平均 边际 效应 。 

(b) 平均 观测 值 的 边际 效应 。 

(c) 当 xz 二 90 时 的 边际 效应 。 

(d) 利用 有 限 差 分 法 计算 , 当 x 一 90 时 变化 一 个 单位 的 边际 效应 。 

5-2 考察 下 述 伽 玛 分 布 的 特殊 单一 参数 情况 , f(y) 二 (y/X)exp( 一 y/X)， 
y>0,， AD0。 对 这 个 分 布 而 言 , 可 以 证 明 ,ELy] 一 2 且 VLyj 一 2X*。 此 处 ,我 们 引 
入 回归 元 ,并 假定 在 真实 模型 中 ,参数 4 依照 4; 二 exp (xiB )/2 而 依赖 于 回归 元 。 
因而 ,ELyi |x; 二 exp(xiB) 且 VLy,|x;j] 二 Lexp(%B)]/2。 假 设 对 于 不 同 i, 数 据 是 
独立 的 且 x; 是 非 随机 的 。 而 且 在 dgp 中 ,有 B= 二 Bo。 

(a) 证 明 ,此 伽 玛 模型 的 对 数 似 然 毅 数 ( 由 六- 1 来 标 庆 ) 是 4 QNB)=N 2;X 
{ln 光一 2xG 十 2in 2 一 2yexp( 一 和 加 ) ) 。 
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(b) 求 plim Qn CB)。 你 可 以 假定 ,为 了 使 用 任何 LLN, 所 需 的 假设 都 得 以 满 
足 。 (提示 :ELln y; 依赖 于 Bo 但 不 依赖 于 6B.,) 

Cc) 证 明 , 作 为 Qy(B) 的 局 部 极 大 值 的 6B, 关于 Bo。 是 一 致 的 。 叙 述 做 出 的 任 
何 假设 。 

(d) 现在 ,阐述 为 了 验证 (b) 部 分 ,你 会 使 用 什么 样 的 LLN。 并 且 , 为 了 应 用 这 
个 定律 ,需要 什么 额外 信息 ;如 果 有 的 话 。 请 做 出 简要 回答 。 这 里 不 要 求 给 出 正式 
证 明 。 

5-3 继续 习题 5 -2 中 的 伽 玛 模型 。 

(a) 证 明 .:3QN(B)/9B8 二 N12),2[ (y; 一 exp(x/B))/exp(x/B)) ]x;. 

(b) 为 使 6 成 为 一 致 的 ,由 一 阶 条 件 预 示 的 什么 根本 条 件 必须 得 到 满足 ? 

Cc) 应 用 中 心 极限 定理 , 求 VNaQn/aG1a 的 极限 分 布 。 此 处 ,你 能 够 假定 中 
心 极限 定理 所 需 的 假设 都 得 到 满足 。 

(d) 为 了 验证 (co) 部 分 ,叙述 你 会 使 用 什么 样 的 CLT。 并 且 , 为 了 应 用 这 个 定 
律 ,需要 什么 额外 信息 ; 如果 有 的 话 。 请 做 出 简要 回答 。 这 里 不 要 求 给 出 正式 
证 明 。 

(e) 求 9Qn/9B96B |a 的 概率 极限 。 

(f) 结合 前 面 结果 , 求 VN( BAB 一 Bo) 的 极限 分 布 。 

(g) 已 知 (了 部 分 ,阐述 如 何在 水 平 0. 05 上 检验 Ho: Bj 宇 B* 对 H,: By 二 BB:， 
其 中 ,8 表示 6B 的 第 j 个 分 量 。 

S-4 非 负 整数 变量 y 服从 几何 分 布 ,; 具 有 密度 (或 者 更 正式 地 为 概率 质量 馈 
数 ) f(y) 二 Cy 十 1) C247C1 十 4) 70 ，y 一 0,1,2,…,A 宝 0。 于 是 , Efy] 二 4 旦 
VLyj 二 A4(1 十 2%)。 引 入 回归 元 ,并 假定 y; 二 exp(x;B8)。 假 定 对 于 不 同 i, 数 据 是 独 
立 的 ,并 且 x; 是 非 随机 的 ,并 且 在 dgp 中 8==pB,。 

(a) 对 该 模型 重复 习题 5 -2 中 的 问题 。 

(b) 对 该 模型 重复 习题 5 - 3 中 的 问题 。 

> 一 假定 从 一 个 样本 得 出 估计 值 0 一 5,0， 二 3,se[ 9) ] 二 2, 而 se[ 90; ] 一 1。 
同时 ,01 与 0; 之 间 的 相关 系数 等 于 0.5。 一 旦 假定 参数 估计 值 具有 渐 近 正 态 性 ， 
执行 下 述 水 平 为 0. 05 的 检验 。 

(a) 检验 Ho: 外 二 0 对 万 :0 天 0。 

(b) 检验 H,: 0 二 29; 对 H,; 01 关 20,。 

(c) 检验 Ho: ==0, 0,=0 对 H,.: 0 和 和 6, 中 至 少 有 一 个 不 为 0 。 

5-6 考察 非 线 性 回归 模型 y 二 exp(x 8)/[1 十 exp(xX 6B)j] 十 u, 其 中 ,误差 项 
可 能 是 异 方差 的 。 

(a) 这 种 限制 EL yjxj 会 位 于 什么 范围 内 ? 

(b) 给 出 NLS 估计 量 的 一 阶 条 件 。 

(c) 利用 结果 (5.77) , 求 NLS 估计 量 的 渐 近 分 布 。 

S-7 这 个 问题 假定 可 以 使 用 软件 计算 NLS 与 ML 估计 。 考 察 习 题 5 -2 的 
伽 玛 回归 模型 。 一 种 合适 的 个 玛 变量 能 由 y 二 一 Aln ri 一 Aln rs 生成 ,其 中 ,一 
exb(XBG)/2 ,而 ni 与 rs 是 从 均匀 分 布 L0， 1 中 随机 抽取 的 。 令 x G = A 十 Box。 当 
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有 二 一 1.0, 访 三 1, 以 及 x~ 和 ML0, 1 时 ,生成 一 个 容量 为 10 000 的 样本 。 
(a) 求 y 对 exp(B 十 有 &z) 的 NLS 回归 的 B 与 Bo 估计 值 。 
(b) 这 里 应 该 使 用 三 明治 标准 误差 吗 ? 
(c) 求 y 对 exp(8 十 zz) 的 NLS 回 归 的 记 与 Bp ML 估计 值 。 
(d) 这 里 应 该 使 用 三 明治 标准 误差 吗 ? 
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6.1 引 论 


上 一 童 关注 m 估计 ,包括 ML 与 NLS 估计 。 现 在 ,我 们 考察 一 类 更 三 泛 的 极 
值 估 计量 , 即 建立 在 矩 方法 (MM) 与 广义 扬 方 法 (GMMD 基础 上 的 估计 量 。 

第 方法 与 广义 惩 方法 的 基础 是 对 总 体 和 矩 条 件 的 集合 进行 设 定 , 而 总 体 矩 条 件 
涉及 数据 与 未 知 参 数 。 和 窍 方 法 佑 计量 求 解 相应 总 体 条 件 的 样本 和 矩 条 件 。 例 如 , 样 
本 均值 是 总 体 均 值 的 甜 方 法 估计 量 。 在 一 些 情 况 下 ,对 于 和 矩 方 法 估计 量 来 说 ,可 能 
不 存在 明显 解析 解 , 但 对 其 求解 数值 解 还 是 可 行 的 。 于 是 ,该 估计 量 就 是 5. 4 市 曾 
简略 介绍 的 估计 方程 俩 计量 的 一 个 例子 。 

然而 ,在 一 些 情况 下 ,和 矩 方 法 估计 或 许 是 行 不 通 的 ,因为 存在 着 比 参 数 还 多 的 
和 矩 条 件 和 待 求解 方程 。 一 个 重要 例子 就 是 过 度 识别 模型 中 的 工具 变量 估计 。 归 功 
于 汉 森 (Hansen,1982) 的 广义 矩 方法 估计 量 扩 展 了 矩 方法 ,以 便 适 应 这 种 情况 。 

广义 矩 方法 估计 量 定义 一 类 估计 量 , 利 用 各 种 不 同 的 总 体 抢 条件, 可 获得 不 同 
的 广义 和 矩 方法 佑 计量 ,正如 不 同 的 设 定 密 度 会 产生 不 同 的 ML 佑 计量 一 样 。 甚 至 
当 可 能 有 可 供 选 择 的 表示 时 ,我 们 仍 强 调 基 于 和 矩 的 估计 方法 ,这 是 因为 它 提 供 了 一 
种 统一 的 估计 方法 ,并 且 提 供 一 种 从 线性 到 非 线 性 模型 扩展 方法 的 明确 途径 。 

广义 和 矩 方法 佑 计 的 基础 由 6. 2 节 和 6. 3 节 给 出 ,这 两 节 分 别 阐述 统计 推断 的 
解释 性 例子 和 渐 近 结果 。 而 本 章 其 余部 分 详 述 更 专门 化 的 舍 计 量 。6. 4 玉河 6.5 
节 阐 述 工具 变量 估计 量 。 对 线性 模型 而 言 ,4. 8 节 和 4. 9 节 的 研究 或 许 是 充分 的 ， 
但 对 非 线 性 模型 的 扩展 来 说 , 则 要 使 用 广义 矩 方 法 。6. 6 节 洱 盖 计 算 时 序 两 步 mm 
估计 量 的 标准 误差 的 方法 。6. 7 节 与 6. 8 节 闸 述 最 小 距离 估计 量 、 广 闵 矩 方法 的 
变形 ,以 及 经 验 似 然 佑 计量, 即 针对 广义 矩 方法 的 可 供 选 择 的 估计 量 。 在 微观 经 济 
计量 研究 中 ,相对 而 言 , 仅 有 很 小 一 部 分 所 使 用 的 系统 估计 方法 将 在 6. 9 市 写 6. 10 
节 加 以 讨论 。 

本 章 从 广义 矩 方法 观点 出 发 ,对 许多 估计 方法 重新 考察 。 利 用 这 些 方法 和 实 
际 数 据 进行 应 用 研究 ,包括 对 4. 9. 6 节 中 线性 工具 变量 (IV) 的 应 用 ,以 及 对 22. 3 
节 中 线性 面板 广义 矩 方法 的 应 用 。 
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6.2 例子 


广义 托 方 法 个 计量 的 建立 基础 是 ,总 体 算 条件 导 致 能 用 于 估计 参数 样本 和 矩 条 
件 的 类 比 原理 (参见 5. 4. 2 节 )。 本 十 将 提供 关于 这 个 原理 的 几 个 重要 应 用 ,所 得 
到 的 估计 量 的 一 些 性 质 可 参考 6. 3 节 。 


6.2.1 线性 右 好 
当 y 是 iid 的 且 均 值 为 pw 时 ,和 窍 方法 Cmethod of moments) 的 经 典 例子 是 对 总 体 
均 人 的 佑 计 。 总 体 中 有 : 
ELy 一 中 三 0 
通过 用 样本 的 平均 算 子 N 1 >) 〈*) 代替 总 体 期 望 算 子 EL.] ,就 会 得 到 相应 样 
本 甜 : 
2 (yi 一 Ap) 二 0 


均值 。 
这 种 方法 能 被 推广 到 线性 回归 模型 y 二 x 8 十 w 上 ,其 中 ,x 与 8 都 表示 KX1 
维 向 量 。 假 定 误 差 项 “ 具有 以 回归 元 为 条 件 的 零 均 值 。 单 个 条 件 约 束 ElLu|xj 二 0 
会 产生 K 个 无 条 件 的 条 件 窍 EL xuj==0, 这 是 因为 : 
Elxul=E[Elxulx|)=E[xElulx]|=ElLx* 0|=0 (6. 1) 
推导 中 利用 了 期 望 闪 代 定 律 (131(law of iterated expectations) (参见 A. 8 市) 以 及 
ELu|xj 二 0 的 假设 。 因 而 ,大 误差 具有 条 件 等 均值 , 则 . 
E[x(y—x' G3)]=0 
甜 方 法 估计 量 是 相应 样本 短 条 件 


lv yA) 
NZX xX; ) 0 


的 解 。 这 就 得 到 , Av 二 (2x;X1) 1 22;Xiyi。 
因此 ,OLS 估计 量 是 和 矩 方法 估计 的 一 种 特殊 情况 。 不 过 ,OLS 估计 量 的 矩 方 
法 推导 显著 地 不 同 于 通常 对 残 差 平方 和 求 极 小 值 的 推导 。 


6. 2. 2 非 线 糙 襄 归 


对 于 非 线 性 回归 而 言 , 若 回归 误差 是 可 加 的 , 则 和 矩 方法 就 简化 成 NLS。 对 于 
更 -一 般 的 具有 非 可 加 误差 (下 面 将 定义 ) 的 非 线性 回归 来 说 ,和 矩 方法 将 会 得 出 一 致 
估计 量 , 而 NLS 却 是 非 -一 致 的 。 


[C1] 又 称 为 重 期 望 定律 。 一 一 译 者 注 
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由 5. 8. 3 节 , 具 有 可 加 误差 (additive error) 的 非 线 性 回归 模型 ,就 是 设 定 ; 
yg(x, DG) 十 
的 模型 。 类 似 于 线性 模型 情况 , 矩 方法 可 得 到 ELu|xj| 二 0, 这 药 含 着 y 一 g(z 一 G) 一 
0, 其 中 ,h(x) 表 示 x 的 任意 函数 。 从 6. 3.7 节 的 内 容 出 发 ,对 h(x) 二 3g(x, 8)/9B8 
进行 特殊 选择 , 则 会 产生 相应 的 样本 和 矩 条 件 ,而 这 些 样本 矩 条 件 等 于 由 5. 8. 2 节 给 
出 的 NLS 估计 量 的 一 阶 条 件 。 
有 具有 非 可 加 误差 (nonadditive error) 的 更 一 般 的 回归 模型 是 设 定 : 
ur(y,xX,0B) 
其 中 ,再 次 有 ELulxj 二 0, 但 y 不 再 被 约束 为 的 可 加 图 数 。 例 如 ,在 泊 松 回归 中 ， 
人 们 可 以 定义 标准 化 误差 u 二 [Ly 一 exp(x B)]/Lexp(xB)] ,由 于 > 具有 等 于 
exp(x B) 的 条 件 均 值 与 条 件 方差 ,所 以 Efu|xj 一 0 有 V[u|xj]==1。 
已 知 非 可 加 误差 ,NLS 佑 计量 是 非 一 致 的 。 对 N'Y; 二 N12 rr(y;, XB)? 
求 极 小 值 ,得 出 一 阶 条 件 : 
六 > ry xi 9) 一 0 
这 里 ,y 在 磁 积 的 两 项 中 都 出 现 了 ,即使 ELr(C)|z 一 0, 也 无 法 保证 这 个 乘积 具有 
零 期 望 。 对 可 加 误差 ~>(* ) 王 yy 一 g(Cx,G) 而 言 , 这 种 非 一 致 性 就 不 会 产生 , 因为 
9r(*)/3G 一 一 gg(x,9)7/3G, 所 以 仅 有 乘积 中 的 第 二 项 依赖 于 y。 
基于 算 方 法 ,会 产生 一 致 佑 计量 。ELu|xj=0 的 假设 蕴含 着 : 


FElh(Cx)r(Cy,x, 8) |] 一 0 
其 中 ,hx) 表 示 x 的 图 数 。 和 若 dim[L h(x) | 一 K, 则 利用 相应 样本 和 矩 . 


Mz 


六 h(x )r(y;, xX, CD) 一 一 0 


得 到 的 一 致 估计 量 ,其 解 可 通过 数值 方法 求 出 。 
6.2.3 家 大 做 做 法 


库 尔 贝 元 一 莱 布 勒 (Kullback-Leibler) 信 息 准 则 已 在 5. 2.2 节 定义 。 由 此 定 
义 , 若 ELs(9)] 王 0, 其 中 ,s(9) 一 3ln f(y|x,0)/90, 而 f(y|x,90) 表 示 条 件 密度 , 则 就 
会 出 现 库 尔 贝 克 一 莱 布 勒 信息 准则 (KLIC) 的 局 部 极 大 值 。 

若 用 样本 和 矩 代替 总 体 矩 , 则 会 得 到 作为 N- ,ss;(0) 一 0 解 的 估计 量 9 。 由 于 
ML 的 一 阶 条 件 存在 ,所 以 MLE 可 以 成 为 MM 估计 量 。 


6. 2. 4 额外 憩 约 京 


如 果 矩 条 件 比 要 估计 的 参数 多 一 些 , 那 么 利用 额外 和 矩 可 改进 估计 有 效 性 ,但 要 
采用 正规 矩 方法 。 

无 效 估 计量 的 一 个 简单 例子 是 样本 均值 。 这 是 总 体 均值 的 无 效 佑 计量 ,除非 
数据 是 出 自 正 态 分布 或 者 指数 分 布 族 的 东 些 其 他 分 布 的 随机 样本 。 一 种 改进 有 效 


] 
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性 的 方法 就 是 使 用 一 种 可 供 选 择 的 估计 量 。 假 如 分 布 是 对 称 的 ,关于 jy 为 一 致 的 
样本 中 位 数 训 会 更 为 有 效 。 很 明显 ,大 分 布 是 完全 设 定 的 ,就 能 使 用 MLE, 然 而 ， 
我 们 这 里 反而 通过 利用 额外 和 矩 约 束 改 进 有 效 性 。 

考察 线性 回归 模型 中 关于 B 的 估计 。 甚 至 在 假定 同方 差 误差 下 ,OLS 估计 量 
仍 是 无 效 的 ,除非 误差 服从 正 态 分 布 。 由 6. 2. 1 节 知 道 ,OLS 估计 量 是 建立 在 
El xwuj 二 0 基础 上 的 MM 估计 量 。 现 在 ,做 出 男 外 的 和 矩 假设 :误差 是 条 件 对 称 的 ， 
所 以 ELw |xj 二 0, 从 而 ELxwi 二 0。 于 是 ,对 B8 的 估计 可 建立 在 2K 个 和 矩 条 件 : 

| ElxCy—x 8)| = 内 
Elx(y—x 8):] 0 

的 基础 上 。MM 舍 计 量 试图 希望 估计 6B8 作 为 相应 样本 和 矩 条 件 N 1 2;x;(y; 一 XB ) 二 
0 与 N 2,x(y; 一 xB) 一 0 的 解 。 然 而 ,对 2K 个 方程 与 只 有 KK 个 未 知 参 数 8 来 
说 ,满足 所 有 这 些 样本 矩 条 件 是 不 可 能 的 。 

相反 ,三 义 矩 方法 佑 计量 利 用 二 次 损失 , 尽 可 能 地 使 样本 和 抢 接 近 于 0。 那 么 ， 
Bimm 对 下 式 极 小 化 : 


QA) = | ， : Ww (6. 2) 


其 中 ,wi 二 yy; 一 XB ,Ww 表示 2K x 2K 阶 加 权 和 矩阵 。 对 于 Ww 的 某 些 选 择 来 说 ,这 
个 佑 计量 比 OLS 更 有 效 。 这 种 例子 将 在 6. 3. 6 节 加 以 分 析 。 


6. 2. 5 工具 变节 阿 力 


工具 变量 估计 是 广义 矩 方法 估计 的 一 个 重要 例子 。 

考察 线性 回归 模型 y 二 x 8 十 ,其 复杂 情况 是 ,x 的 某 些 元 素 与 误差 项 相关 ,所 
以 OLS 关于 6B8 是 非 一 致 的 。 假 定 与 x 相关 的 工具 (instruments)z 存在 (已 在 4.8 
节 介 绍 ) ,但 要 求 满足 ELulzj 一 0。 那么 ,EL[y 一 x B81zj 二 0。 利 用 类 似 于 用 于 获得 
OLS 例子 (6.1) 的 代数 运算 ,我 们 用 z 去 乘 , 以 便 得 到 无 条 件 的 总 体 和 矩 条 件 : 


Elz(y—x 3)|]=0 (6. 3) 
矩 方法 佑 计量 就 是 求解 相应 的 样本 和 矩 条 件 : 


N 
1l / 
六 之 zy Xi ) 一 0 


若 dim(z) 二 KK, 则 得 到 [Bu 二 (2;zx) -zy; ,这 是 4. 8.6 节 曾 引 进 的 线性 工具 
变量 估计 量 。 

如 果 潜 在 工具 比 回归 元 个 数 多 ,使 得 dim(z) 盖 开 , 并 且 方 程 个 数 多 于 未 知 数 ， 
就 不 存在 解 。 一 种 可 能 性 是 使 用 恰好 KK 个 工具 ,但 有 效 性 却 有 损失 。 然 而 ,广义 
和 矩 方法 估计 量 则 是 利用 二 次 损失 选择 B, 以 使 向 量 N13;z;(y; 一 XB8) 尽 可 能 小 ， 
所 以 RBewm 对 下 式 极 小 化 : 
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QN (OB) = Day —x8) | Ws a 一 GD) | (6. 4) 


其 中 ,Ww 表示 dim(z) xdim(z) 的 加 权 和 矩阵 。2SLS 估计 量 ( 人 参见 4. 8. 6 节 ) 对 应 于 
对 Wn 的 特殊 选择 。 

6. 4 方 对 线性 模型 的 工具 变量 方法 进行 了 相当 详细 的 阐述 。 广 义 矩 方法 的 优 
氮 是 , 它 提 供 设 定 加 权 和 矩阵 Wn 最 优选 择 的 一 种 方法 ,所 得 的 估计 量 比 2SLS 更 
有 效 。 

6. 5 节 少 盖 非 线性 模型 的 工具 变量 方法 。 广 义 和 矩 方 法 的 一 个 优点 是 ,对 非 线 
性 回归 的 推广 是 简单 易 行 的 。 于 是 ,我 们 直接 用 非 线性 模型 x 二 y 一 g(x'B) 或 u= 二 
(yx,G) 来 代 巷 前 面 关 于 Qnv(8) 的 表达 式 中 的 y 一 x 0 。 


6.2.6 而 旅 数 据 


为 一 个 广义 矩 方法 的 重要 应 用 及 相关 的 估计 方法 是 面板 数据 回归 。 

举 一 个 例子 ,假定 yi 二 XB 十 uw, 其 中 ,i 表示 个 体 ,t 表示 时 间 。 由 6. 2. 1 节 
知 诅 ,yi 对 Xi 的 混合 OLS 回归 ,是 建立 在 条 件 ELxiui ]= 二 0 基础 之 上 的 MM 估计 
量 。 为 外 ,假定 误差 wi 与 回归 元 在 一 些 时 期 而 非 当 前 时 期 是 不 相关 的 。 于 是 ,对 
于 s 关 t, ELxiuij 二 0 提供 了 能 用 于 获得 更 有 效 估计 量 的 另外 和 矩 条 件 。 

第 22 章 和 第 23 章 将 提供 用 于 面板 数据 内 容 的 一 些 广义 矩 方法 。 


0. 2. 7 ” 源 于 经 济 理 论 的 便条 件 
利用 经 济 理论 可 以 得 到 用 于 估计 基础 的 和 矩 条 件 。 
这 里 以 下 述 模型 开始 阐述 : 

Yi =Ely, Xi , 了] 十 2 


其 中 ,右边 第 一 项 测算 出 以 x 为 条 件 的 y 的 “预测 "成 分 ,第 二 项 测算 出 “ 非 预测 ?成 
分 。 举 一 个 例子 ,y 可 以 表示 资产 收益 或 通货 膨胀 率 。 在 理性 预期 和 市 场 出 清 或 
市 场 有 效 这 两 个 假设 条 件 下 ,我 们 得 到 下 述 结果 : 非 预 测 成 分 在 确定 ELy|xj 时 , 利 
用 时 间 上 获得 的 任何 信息 都 是 不 可 预测 的 。 那 么 有 : 


El (y,— Ely, | x, ,BG |) ] 7 | 一 


其 中 , 工 表示 在 时 间 上 可 利用 的 信息 。 

由 期 望 迭 代 定 律 ,ELz Gy 一 ELylx,GJ) = 一 0 其中, 表示 由 工 , 的 任何 子 集 
所 形成 的 。 由 于 信息 集 的 任何 部 分 都 能 用 作 工 具 , 这 就 提供 了 可 作为 估计 基础 的 
许多 符 条 件 。 倘 春 使 用 时 间 厅 列 数据 , 则 广义 阜 方法 最 小 化 二 次 形式 : 


QTr-(G9) = | 元 > aa | Wi 却 >》, i | 


其 中 ,= 一 ELylx 8j。 倘 在 在 单个 时 点 上 上 使 用 模 规 面 数据 , 则 广义 矩 方法 
最 小 化 二 次 形式 : 
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Qe = [ND ] wa [AD] 


其 中 ,Wi = yi— ELy. x; ,Bj ;下 标 : 因为 仅 有 一 个 时 期 需要 加 以 分 析 而 被 省 略 。 

上 述 方法 并 没有 有 党 限于 推导 中 所 用 的 可 加 结构 。 所 需要 的 全 部 内 容 是 误差 项 wu 
满足 性 质 ELw ZJ=0。 这 类 条 件 产 生 于 欧 拉 条 件 , 欧 拉 条 件 源 于 在 确定 性 条 件 下 的 
跨 时 期 决策 模型 。 例 如 , 汉 森 和 辛 格 尔 顿 (Hansen and Singleton，1982) 曾 阐述 的 
期 望 寿命 效用 最 大 化 模型 ， 导致 了 欧 拉 条 件 EL uw， 友 | 一 0， 其 中 Ur — Bgrririrl 一 1]， 
而 git1 王 Ct1/ct 表示 两 个 时 期 的 消费 比 ,rij 表示 资产 收益 。 参 数 8 与 a 分 别 表示 
路 时 期 折 现 率 与 相对 风险 规避 的 参数 ,它们 既 可 以 是 时 间 序 列 数据 ,又 可 以 利用 横 
截面 数据 通过 广义 甜 方法 得 以 估计 ,正如 前 面 所 做 的 那样 ,还 有 新 定义 的 ww,。 汉 森 
(Hansen，1982) 以 及 汉 森 和 辛 格 尔 顿 (Hansen and Singleton, 1982) 都 考虑 了 时 间 
序列 数据 , 麦 柯 迪 (MaCurdy，1983) 利 用 面板 数据 ,对 消费 和 劳动 力 供给 进行 了 
建 摸 。 


6.3 广义 怎 方法 


本 他 将 阐述 广义 甜 方法 估计 的 一 般 理 论 。 广 义 抑 方法 定义 出 一 类 估计 量 。 正 
如 对 分 布 的 不 同 选取 会 产生 各 种 不 同 的 ML 估计 量 一 样 , 对 和 矩 条 件 与 加 权 和 矩阵 的 
不 同 选 取 也 会 产生 各 种 不 同 的 广义 矩 方 法 估计 量 。 我 们 既 讨 论 这 些 问 题 , 又 阐述 
估计 广义 元 方法 估计 量 的 方差 矩阵 方法 ,以 及 通常 的 一 致 性 和 渐 近 正 态 性 质 。 
6.3.1 舍 万 法 侍 订 最 

人 研究 起 点 是 假定 存在 9 个 参数 的 > 个 矩 条 件 : 

El h(w ,0 ) | 一 0 (6.5) 

其 中 ,8 表示 gq XX1 维 各 量 ,h(，) 表 示 rX1 维 癌 量 函数 ,满足 r 宇 g, 而 0 表示 数据 生 
成 过 程 中 6 的 但。 辐 量 w 包括 所 有 可 观测 值 ,包含 有 关 的 因 变 量 y、 潜 在 内 生 回 归 
元 X 以 及 工具 变量 z。 因 变量 y 可 以 是 一 个 回 量 ,因此 ,对 方程 组 或 面板 数据 的 应 
用 要 进行 归 类 。 期 望 是 关于 w 的 所 有 随机 成 分 的 ,由 此 也 是 关于 y.x 和 z 的 。 

对 hk*) 消 数 形式 的 选择 ,在 性 质 上 类 似 于 对 模型 选择 ,而 且 会 随 着 应 用 而 变 
化 。 表 6. 1 中 的 内 容 总 结 了 hw) 二 hlCy,x,z,0) 的 一 些 单方 程 例子 ,这 已 在 6. 2 节 
中 阐述 过 。 

表 6.1 广义 和 矩 方法 :例子 


矩 函 数 h(*) 估计 方法 

yA 关于 总 体 均值 的 矩 方法 
x(y— Xx 3) 普通 最 小 二 乘法 回归 
z(y—x 8B) 工具 变量 回归 

ain f(y|x,0) /390 极 大 似 然 估计 
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只 要 > 一 q, 吏 能 应 用 和 定 方 法 。 总 体 符 等于零, 可 用 相应 样本 和 抢 等 于 零 来 代替 ， 
矩 方法 估计 量 0 wv (method of moments estimator) 被 定义 为 下 式 的 解 ， 


1] 亡 、 
六 2， 
这 等 价 于 对 
] ~N 1 ] N 
一 一 人 hu ,0) h( ,»0) 
Qn 0) 方 之 MM > vw | 


求 极 小 值 的 估计 方程 估计 量 , 其 渐 近 分 布 已 由 5.4 节 阐 述 ,并 由 6. 3. 3 节 的 式 
(6. 13) 重 新 描述 。 


6. 3.2 三 义 算 方 活 信 计量 


广义 十 方 法 佑 计量 建 立 在 > 个 独立 的 惩 条 件 (6. 5) 的 基础 上 ,并 且 有 9 个 参数 
铅 佑 计 。 

如 果 7 二 gq, 那 么 模型 称 为 恰好 识别 的 (just-identified) ,并 可 使 用 托 方 法 估计 量 
(6. 6)。 里 正式 地 讲 ,r 二 9 仅仅 是 恰好 识别 的 必要 条 件 , 而 且 我 们 男 外 要 求 命题 
6. 1 中 的 Go 具有 秩 g。 识 别 将 在 6. 3. 9 市 中 加 以 讨论 。 

如 果 ”9 那么 模型 称 为 过 度 识 别 的 (Coveridentified) , 由 于 方程 个 数 (Cr) 比 未 
知 数 个 数 (g) 多 ,所 以 对 于 6 来 说 , 式 (6. 6) 没 有 解 。 相 反 , 选 取 6 以 使 二 次 形式 
N Yih(w;,b) 尽 可 能 地 接近 于 零 。 特 别 地 ,广义 矩 方法 估计 量 (generalized meth- 
ods of moments estimator)0 就 是 对 目标 函数 


Qn (0) = hw] Ww [Nohow,0)] (6.7) 


求 极 小 值 , 其 中 ,rxXr 阶 加 权 和 矩阵 Wn 表示 对 称 正定 的 ,可 能 具有 有 限 概 率 极限 的 
随机 形式 ,但 不 依赖 9。Wn、 的 下 标 N 表示 , 它 的 值 可 能 依赖 于 样本 。 然 而 , 当 
和 一 co 时 ,WAN 的 维 数 rr 是 固定 的 。 目标 阻 数 还 能 用 和 矩阵 记号 表示 成 Qn (0) = 
NITH(0) Wn XN-1H(0)'1, 其 中 ,I 表示 NX1 维 向 量 , 而 H(0) 表 示 NXr 阶 
年 阵 ,其 第 i 行 是 h( y; ,xX; ,0) 。 

对 加 权 和 矩阵 WA 的 不 同 选择 ,将 会 产生 各 种 不 同 舍 计量 ,如 果 r 二 gq, 那 么 估计 
量 是 一 致 的 ,但 具有 不 同 的 方差 。 一 种 简单 选择 是 设 WA 为 单位 矩阵 ,尽管 这 稍 般 
是 差 的 选择 。 于 是 ,Qn (09) = 二 及 十 谨 十 … 十 及 表示 > 个 样本 平均 平方 之 和 ,其 中 ， 
hh 一 和 N72;hj(wi,0) ,而 h(*) 表 示 hl:) 的 第 ;个 成 分 。6. 3.5 节 给 出 对 Ww 的 最 

求 式 (6.7) 中 Qn (0) 关 于 8 的 微分 ,得 到 广 闵 和 矩 方法 一 阶 条 件 : 


PPE 2 wx [D6)]=0 (6 8) 
i 二 1 一 


其 中 ,hb) 一 hiCw ,09) ,并 且 我 们 用 尺度 因子 12(scaling factor)1/2 去 乘 。 一 般 来 


C1] 又 称 为 标 度 因 子 。 一 一 译 者 注 
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说 ,这 些 方程 十 分 复杂 且 关 于 8 是 非 线 性 的 ,因为 8 既 出 现在 第 一 项 中 也 出 现在 第 
三 项 中 。 数 值 求 解法 将 在 第 10 章 加 以 阐述 。 


6. 3.3 广义 第 万 活 舍 计 节 分 布 


广义 窍 方法 佑 计量 的 渐 近 分 布 是 以 下 述 命 题 形 式 给 出 的 ,对 它 的 推导 则 由 
6. 3. 9 节 给 出 。 

命题 6. 16( 广 义 矩 方法 估计 量 分 布 ) 做 出 下 述 假设 : 

(i) 对 给 条 件 (6. 5) 施 加 数据 生成 过 程 ; 即 下 [hCw,6o) 王 0。 

(ii) rX1 维 向 量 史 数 h(。.) 满 足 hw,90) 一 hw,02 ) , 当 且 仅 当 0 一 02) 。 

(iii) 下 面 的 rxqg 阶 给 阵 存 在 且 是 有 限 的 ,其 秩 为 gq: 


N 
1 oh, 
Go = plim N22 3 
Pp 
(iv) Wn 一 Wo ,其 中 ,Wo 表示 有 限 对 称 正定 矩阵 。 
dad 
(v) N72O) nh | — 人 /| 0， S(0o。) 1, 其 中 . 





,| (6. 9) 


NN N 
So = plim N73: > > [hh’ | (6. 10) 
i 二 】 j 二 1 


那么 ,广义 和 矩 方法 估计 量 0 cv 被 定义 为 由 式 (6.8) 给 出 的 一 阶 条 件 的 根 , 此 估计 量 
关于 Oo 是 一 致 的 ,并 且 : 


一 d / _ / 7 由 
VAN 一 0 ) — NI[O0,G WG ) GWoSo Wo Go ) (Go WoGo) 1 (6. 11) 


一 些 重 要 的 专门 研究 是 下 述 内 容 。 

首先 ,在 微观 经 济 计量 分 析 中 ,通常 假定 数据 对 于 不 同 i 是 独立 的 ,所 以 式 
(6. 10) 简 化 为 ; 

S, 一 plim > Ch a] (6. 12) 
另外 , 若 假 定数 据 是 同 分 布 的 , 则 式 (6. 9) 与 式 (6. 10) 简 化 为 Go 一 EL93h/30 1 与 
So 一 E[hh |。] ,这 种 记号 已 被 许多 作者 使 用 。 

其 次 ,在 r= 二 9g 的 恰好 识别 情况 下 ,对 于 包含 ML 与 LS 的 许多 估计 量 的 情况 来 说 ， 
结果 可 简化 成 由 5. 4 节 阐 述 的 估计 方程 估计 量 的 那些 结果 。 为 了 理解 这 一 点 ,注意 
到 , 当 r 二 g 时 , 算 阵 Go。、.W。 和 So 都 是 可 逆 方 阵 , 所 以 (GOWoGo) ! 二 Gs W (GD) '， 
并 且 式 (6. 11) 中 的 方差 矩阵 可 以 简化 。 巾 此 可 得 ,对 于 式 (6.6) 中 的 MM 佑 计量 
来 说 ， 有 : 


VC 一 8) SN[O,GS,(G)) -1 (6. 13) 
像 广义 矩 方法 佑 计量 一 样 ,GMM 估计 量 总 是 可 以 被 计算 出 ,而 且 对 满 秩 加 权 和 矩阵 
选择 来 说 是 不 变 的 。 
再 次 ,对 矩阵 Ww 的 最 佳 选 择 是 使 得 Wo 二 S$。。 那 么 ,在 式 (6. 11) 中 的 方差 矩 
阵 可 简化 为 (GoS，Gu)-: 。 这 将 在 6. 3. 5 节 中 详细 阐述 。 
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6. 3.4 万 卷 生 隆信 计 


有 关 广 闵 矩 方法 估计 量 的 统计 推断 可 能 是 式 (6. 11) 中 的 Go。、Wo 和 S 的 一 致 
估计 值 G.W、S。 在 相对 弱 分 布 的 假设 下 ,很 容易 获得 一 致 估计 值 。 
对 G。 来 说 ,一 个 明显 估计 量 是 : 


1 ah 
一 NZ a0 | ; 
对 Wo 而 言 , 可 使 用 简单 加 权 和 矩阵 。 关 于 rXr 阶 矩 阵 So 的 佑 计量, 会 随 着 做 出 有 


关 数 据 生 成 过 程 的 随机 假设 而 变 人 化。 通常, 微观 经 济 计量 分 析 假 定 , 对 于 不 同 ; 具 
有 独立 性 ,因而 S,。 具有 比较 简单 的 形式 (6. 10) 。 于 是 ,一 个 明显 估计 量 是 : 


《6. 14) 





N 
$= NH 2h (0)h,c0) (6. 15) 
;一 1 


由 于 h(") 表 示 rX1 维 的 ,所 以 Ss, 中 至 多 存在 独一无二 的 r(r 十 1)/2 个 需要 估计 
的 有 限 数 。 因 此 ,假定 ELh;,h;j 存 在 并 依赖 于 少数 几 个 参数 ,而 不 需要 对 方差 
ELhih ] 参 数 化 , 当 N 一 oo 时 ,S 是 一 致 的 。 所 需要 的 全 部 内 容 就 是 ,添加 某 种 合适 
的 附加 假设 ,以 确保 plim Nihh 一 plim N12;hjhi。 例 如 ,如 果 h; 二 x;z;, 其 
中 ,tt 表示 OLS 残 差 ,我们 由 4. 4 节 知 道 , 需 要 假定 该 佑 计量 的 四 阶 矩 存在 。 
对 这 些 结果 加 以 综合 ,就 得 出 广义 矩 方法 估计 量 服从 渐 近 正 态 分 布 , 其 均值 为 
0 ,而 估计 闭 近 方差 为 : 
VO]— NG WnG) GO WSWAGC WG) (6. 16) 


这 个 方差 矩阵 估计 量 是 稳健 的 估计 量 , 即 基 克 一 怀特 异 方 差 一 致 估计 量 关 于 最 小 
二 乘法 佑 计量 的 扩展 。 

人 们 还 可 取 期 望 ,同时 对 Go 使 用 Ge 一 六 -2E[ahy/ab]li ,而 对 SS 使 用 
St 一 N15,E[Lhjh;]|;。 不 过 ,为 了 取 期 望 ,通常 需要 附加 的 分 布 假设 ,而 方差 矩阵 
估计 关于 分 布 错 误 设 定 将 不 是 稳健 的 。 

在 时 间 序 列 情况 下 ,h, 以 时 间 上 表示 下 标 , 而 渐 近 理论 建立 在 时 期 Tc 的 
基础 上 。 就 时 间 数 据 而 言 ,h 是 一 个 向 量 MA(g) 过 程 ,V[ Oomu ] 的 通常 估计 量 巾 
纽 韦 和 韦 斯 特 (Newey and West，1987b) 提出 ,他 们 使 用 式 (6. 16) 与 $= @% 十 


(1 一 二) (二 ) ,其 中 ,全 = 了 了 避 ,ho 。 除 了 同期 相关 之 外 ,还 


允许 h, 中 时 间 序 列 相关 。 关 于 协 方差 矩阵 估计 的 进一步 详细 内 容 , 包 括 时 间 序 列 
情况 下 的 一 些 改 进 , 已 由 戴维森 和 麦 金 农 (Davidson and MacKinnon, 1993,17.5 
节 ) .哈密 尔 顿 (Hamilton，1994) 以 及 哈 思 和 芋 文 (Haan and Levin，1997) 给 出 。 


6.3.5 最 优 加 权 佐 降 


运用 广义 矩 方法 ,需要 对 式 (6.7) 的 和 矩 函 数 hk" ) 和 加 权 符 阵 Wn 进行 设 定 。 
容易 选取 Ww ,以 便 获 得 给 定 设 定 图 数 h(*) 时 ,具有 最 小 渐 近 方差 的 广义 窍 方 
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法 估计 量 。 这 常常 称 为 最 优 广 义 矩 方法 ,尽管 它 是 最 优 性 的 一 个 受 限 形 式 , 因 为 如 
来 对 h(*，) 选 择 不 好 , 则 会 产生 非常 无 效 的 估计 量 。 z 

对 恰好 识别 模型 来 说 ,就 任何 满 秩 加 权 和 矩阵 而 言 ,可 获得 同样 的 估计 量 ( 和 矩 方 
法 佑 计量 ), 因 此 ,人 们 还 是 最 好 令 Wn 二 1。 

对 满足 一 >d 的 过 度 识 别 模型 且 S 为 已 知 的 情况 来 说 ,通过 选择 加 权 和 矩阵 
Wn 二 S$S。 来 获得 最 有 效 的 广义 所 方法 估计 量 。 于 是 ,对 命题 中 给 出 的 方差 矩阵 可 
进行 简化 ,并 且 : 

VN (Gow —00) SN [0, (GS Go) ~!] (6. 17) 
此 结果 归功 于 汉 森 (Hansen，1982)。 

这 一 结果 可 利用 类 似 于 线性 模型 中 建立 GLS 是 最 有 效 的 WLS 估计 量 的 那些 
矩阵 推理 来 获得 。 甚 至 更 简单 的 是 ,人 们 能 直接 对 目标 函数 进行 推导 。 对 二 次 形 
式 u Wu 求 极 小 值 的 LS 估计 量 来 说 ,最 有 效 的 估计 量 是 设 W= 于 1 二 VL[u]! 的 
GLS。 在 式 (6.7) 中 ,广义 矩 方法 目标 孙 数 是 满足 na 一 六 -之 四 09) 的 二 次 形式 ,所 
以 最 优 W 一 CVLN 2ihi(6)]) :一 SS 。 最 优 广义 矩 方法 估计 量 可 通过 样本 和 矩 条 
件 下 方差 矩阵 的 逆 来 进行 加 权 。 

最 优 GMM 

在 实际 应 用 中 ,S 是 未 知 的 ,并 且 我 们 设 Wv 王 S ,其 中 ,$S 表示 关于 S 是 一 
致 乓 。 最 优 广 义 算 方法 估计 量 能 利用 两 步 法 11(Ctwo-step procedure) 来 获得 。 第 
一 步 , 三 义 矩 方法 估计 量 可 利用 对 Wn 的 次 优选 择 , 比 如 为 了 简单 起 见 , 取 Ww 一 
I,。 第 一 步 ,利用 式 (6. 15) 估 计 S。 第 二 步 ,利用 最 优 加 权 和 矩阵 Wn 二 Sm! ,得 到 一 个 
最 优 GMM 估计 量 。 

于 是 ,最 优 广 义 矩 方法 估计 量 (optimal GMIM estimator) 或 两 步 广 义 矩 方法 估 
计量 (two-step GMM estimator) vw ,建立 在 hi (90) 对 


Qv(b) 一 hc] EN (6. 18) 


求 极 小 值 的 基础 上 。 其 极限 分 布 已 由 式 (6. 17) 给 出 。 最 优 广 义 矩 方法 估计 量 服从 
渐 近 正 态 分 布 ,均值 为 bo， 而 合计 渐 近 方差 有 相对 简单 的 公式 : 


V[O0ms | =N- (GS 1G)! (6. 19) 


通常 ,G 与 $ 的 计算 均 在 Gosomwm 处 进行 ,所 以 S$ 使 用 与 $ 相 同 的 公式 ,只 是 在 oswm 
处 进行 计算 。 一 种 可 供 选 择 的 方法 ,是 在 第 一 步 估 计量 处 加 以 计算 ,如 同 使 用 6 
的 任何 一 致 估计 量 一 样 。 

值得 注意 的 是 ,为 了 估计 次 优 广 义气 方法 的 方差 矩阵 , 式 (6. 18) 中 的 最 优 广义 
甜 方法 和 估 计量 并 不 要 求 附加 超出 其 需要 ,允许 使 用 式 (6. 16) 的 那些 随机 假设 。 在 
这 两 种 情况 下 ,要 求 $ 关 于 S$ 是 一 致 的 ,并 且 由 式 (6. 15) 之 后 的 讨论 可 知 ,这 需要 
儿 个 附加 假设 。 当 误差 是 异 方差 时 ,这 完全 可 以 与 为 使 GLS 比 OLS 更 有 效 而 需 


人 1] 这 里 ,把 procedure 主 成 方法 , 它 还 有 程序 之 意 。 一 一 译 者 注 
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要 的 附加 假设 形成 对 比 。 然 而 ,误差 中 的 异 方差 性 将 会 影响 到 对 h; (90) 的 最 优选 择 
(参见 6. 3.7 节 )， 

两 步 广 义 纸 方法 小 样本 偏 倚 

对 过 上 度 识 别 模型 来 说 ,理论 人 研究 表明 ,最 好 的 方法 是 使 用 最 优 广义 矩 方法 。 不 
过 ,在 具体 实施 时 ,从 理论 上 来 说 ,最 优 加 权 和 矩阵 Wv 王 S 1 需要 用 一 致 估计 值 S 
来 代替 。 这 种 代替 在 渐 近 形式 上 不 会 造成 什么 差异 ,但 它 在 有 限 样 本 上 产生 差异 。 
尤其 是 ,使 式 (6. 18) 中 的 h;(0) 增 大 的 个 体 观测 值 ,可 能 会 增 大 式 (6. 18) 中 的 $= 


:N72hihi ,导致 N71,h; (9) 与 S 相 关 。 注 意 到 ,由 于 取 概 率 极限 ,所 以 类 似 地 ， 


Su 一 plim Nihh 并 没有 受到 影响 。 

奥 尔 顿 金 和 西 格 尔 (Altonji and Segal,，1996) 在 运用 面板 数据 对 协 方差 结构 模 
型 进行 估计 时 ,已 经 阐述 过 这 个 问题 (参见 22. 5 节 )。 他 们 使 用 有 关 的 最 小 距离 估 
计量 (参见 6.7 节 ) ,但 是 文献 却 把 他 们 的 结果 解释 成 与 利用 横 截 面 数据 或 短 面板 
的 广义 窍 方 法 舍 计 有 关 。 如 和 人们 所 料 , 在 模拟 研究 中 ,最 优 估计 量 比 一 步 估 计量 更 
有 效 。 不 过 ,最 优 估 计量 具有 的 有 限 样 本 偏 倚 如 此 之 大 ,以 致 它 的 均 方 误差 根 远 大 
于 一 步 估 计量 的 均 方 误差 根 。 

奥 尔 顿 金 和 西 格 尔 (Altonji and Segal，1996) 还 提供 了 一 种 变形 , 即 独立 加 权 
最 优 (independently weighted optimal) 估 计量 , 它 是 利用 观测 值 而 不 是 样本 和 拖 构 造 
加 权 和 矩阵 。 他 们 把 样本 分 成 G 个 组 ,一 种 明显 选择 是 G 王 2, 并 且 对 下 式 极 小 化 : 


Qu(9) 一 去 > hu(6)Scohe(g) (6. 20) 


其 中 ,he(6) 表 示 对 第 g 个 组 计算 ,而 $s 表示 利用 除了 第 g 个 组 之 外 的 所 有 组 计 
算 。 这 个 估计 量 偏 倚 很 小 ,因为 由 构造 知 ,加 权 和 矩阵 SO, 与 hs (9) 是 独立 的 。 然 
而 ,分 割 样本 会 导 臻 有 效 性 损失 。 相 反 , 埠 罗 威 次 (Horowitz，1998a) 使 用 自助 法 
(人 参见 11. 6. 4 节 ) 

在 奥 尔 顿 金 和 西 格 尔 (Altonji and Segal，1996) 的 例子 中 ,h; 涉及 二 阶 矩 ,所 
以 $ 涉 及 四 阶 矩 。 在 其 他 例子 中 ,最 优 估计 量 的 有 限 样本 问题 不 是 显著 的 ,其 中 ， 
h; 仅仅 包含 一 阶 窍 。 不 过 , 奥 尔 顿 金 和 西 格 尔 的 结果 建议 ,在 利用 最 优 广 义 窍 方法 
时 要 小 心 谨慎 ,而且 一 步 广 义 矩 方法 与 最 优 广 义 矩 方法 估计 值 之 间 的 差异 或 许 表 
明 ,最 优 广 义 矩 方法 存在 有 限 样 偏 倚 的 问题 。 

甜 约 束 的 个 数 

通常 ,进一步 增加 和 矩 约 束 会 改进 渐 近 有 效 性 ,这样 做 减少 了 最 优 广义 矩 方法 佑 
计量 的 极限 方差 (GoS，Go) ! ,或 者 最 不 利 的 情况 就 是 , 渐 近 有 效 性 尚未 改变 。 

进一步 增加 和 矩 条 件 的 益处 会 随 着 应 用 而 变化 。 例 如 , 奉 估 计量 是 MLE, 则 MLE 
是 完全 有 效 的 ,所 以 并 未 得 到 任何 改进 。 因 为 作为 工具 的 变量 可 能 与 许多 工具 的 
组 合 比 其 与 单个 工具 更 为 高 度 相 关 , 所 以 文献 专注 于 那 种 值得 考虑 的 工具 变量 估计 。 

然而 ,由 于 和 矩 约束 的 个 数 不 能 大 于 观测 值 的 个 数 , 所 以 存在 限制 性 。 丈 外, 增 
加 更 多 矩 条 件 , 会 增 大 有 限 样本 偏 倚 的 似 然 ,相关 问题 类 似 于 线性 模型 胖 工 具 的 那 
些 问题 (参见 4. 9 节 )。 斯 托 克 等 人 (Stock et al. ，2002) 简要 考虑 了 非 线 性 模型 中 
的 弱 工 具 。 
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0. 3.6 带 有 对 称 误 差 回 妇 的 例子 


为 了 阐明 广义 矩 方法 渐 近 结果 ,我 们 回 到 6. 2. 4 节 引 进 的 附加 和 矩 约 束 例子 上 。， 
对 这 个 例子 来 说 ,aewmv 的 目标 函数 已 由 式 (6. 2) 给 出 。 所 需要 做 的 全 部 内 容 就 是 
对 Wy 进行 设 定 ,例如 ,Wn 二 I。 

为 了 获得 这 个 估计 量 的 分 布 , 我 们 使 用 6. 3 节 的 一 般 记 号 。 把 式 (6.5) 中 的 函 
数 h(.) 专 门 化 为 : 

x(y 一 X 8) | _, 9h(y,x, 8) -| 一 XX | 

x(y—x 0)’ DB —3xx (y—x GB): 
这 些 表达 式 利 用 式 (6. 9) 与 式 (6. 12) 直接 推导 出 关于 Gu 与 S% 的 表达 式 , 因 此 ,由 
式 (6. 14) 与 式 (6. 15) 得 出 一 致 估计 值 : 


hCGy,x,G) 一 | 


(6.21) 
Nx 
与 
六 之 ， 7 XX NX X ， 
S 一 (6. 22 ) 
] / 1 有 严 
N ;A NN 2 Hi XX 


其 中 ,二 yy; 一 Xx/B。 可 供 选 择 的 估计 值 通 过 先 在 Gu 与 S 处 计算 期 望 来 获得 ,但 这 
要 求 E[z |xj、E[Lu' zx 以 及 EL |xj 存 在 的 假设 。 把 GS 以 及 Wy 代入 式 
(6. 16) ,得 到 和 ww 的 估计 渐 近 方差 矩阵 。 

现在 ,考察 带 有 最 优 加 权 和 抢 阵 的 广义 托 方 法 。 这 又 一 次 对 式 (6.2) 极 小 化 ,但 
是 ,从 式 (6. 18) 开 始 , 有 Wv 一 S ,其 中 ,已 由 式 (6. 22) 定 义 。 对 $ 进行 计算 , 需 
要 局 的 一 步 一 致 估计 值 。 一 种 明显 的 选择 是 满足 WwWv= 工 的 广义 矩 方法 。 在 此 例 
子 中 ,OLS 估计 量 是 一 致 的 ,而 且 还 可 以 被 使 用 。 利 用 式 (6. 19) ,得 到 这 种 两 步 佑 
计量 的 估计 渐 近 方差 矩阵 V[ Bsmmj, 它 等 于 : 


_ / .9 / _ "1 / 一 ] 
> :AA | > 以 ; XX > WU ， 生 ;是 ; > Wt ;AA 
3 7 4 / 6 / 3 1 

> xX >》 ,xX > XX > XX 


其 中 ,i = y; — Xx; BooMm , 而 各 项 用 N 去 际 就 可 以 抵消 。 

在 本 例 中 ,最 优 广义 矩 方法 提高 有 效 性 的 解析 结果 ,可 通过 对 非 回归 元 的 专门 
化 而 很 容易 地 获得 ,其 中 ,y 表示 iid 的 ,其 均值 为 yxy。 进一步 地 ,假定 y 表示 拉 普 拉 
斯 分 布 ,其 标 度 参数 等 于 1, 在 此 情况 下 ,密度 是 f(y) 二 (1/2) Xexp( 一 |y 一 13， 
ELyj 二 ,VLyj] 一 2。 同时 ,对 奇数 7 来 说 , 较 高 阶 的 中 心 朱 EL(y 一 jy)"j 等 于 0; 而 
对 偶数 r 来 说 , 它 等 于 r!。 样 本 中 位 数 是 完全 有 效 的 ,这 是 因为 它 是 MLE, 并 且 可 
以 证 明 , 它 具 有 渐 近 方差 1/N。 样 本 均值 是 3 无效 的 ,其 方差 Vly 二 VLyj]/N= 
2/N。 建 立 在 两 个 矩 条 件 ELCy 一 0) 二 0 与 EL(y 一 jp) 二 0 基础 上 的 最 优 广 义 矩 
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方法 估计 量 jo, 具 有 下 述 的 加 权 和 矩阵 , 即 把 更 小 权 数 放 在 二 阶 和 矩 条 件 上 ,因为 它 具 
有 相对 大 的 方差 ,并 且 具 有 人 负 的 非 对 角 线 元 素 。 可 以 证 明 , 最 优 广义 矩 方法 估计 量 
LooMM 有 具有 渐 近 方差 1, 714 3/N( 参 见习 题 6. 3)。 因 此 ,尽管 它 与 样本 中 位 数 相 比 ， 
其 有 效 性 还 很 差 , 但 是 它 比 样本 均值 (方差 为 2/N) 更 有 效 。 

对 这 个 例子 来 说 ,单位 矩阵 是 加 权 和 矩阵 的 一 个 例外 的 差 选择 。 它 把 太 大 的 权 
数 放 在 二 阶 矩 条 件 上 ,得 到 一 个 y 的 次 优 广 义 矩 方法 佑 计量, 其 渐 近 方差 19. 14/N 
比 平稳 的 VLyj 一 2/N 大 出 了 许多 倍 。 详 细 内 容 参 见习 题 6. 3。 


6. 3.7 最 优 第 条 伴 


6. 3. 5 廊 已 给 出 令 人 惊奇 的 结果 。 从 本 质 上 讲 , 最 优 广义 矩 方 法 的 要 求 并 不 
比 没 有 最 优 加 权 和 矩阵 的 广义 矩 方法 所 需要 的 假设 多 。 不 过 ,这 种 最 优 非常 有 局 限 
性 ,因为 它 是 以 对 式 (6. 15) 或 式 (6. 18) 中 矩 函 数 hl ) 的 选取 为 条 件 的 。 

广义 短 方 法 定义 出 一 类 佑 计量, 对 h(' ) 的 各 种 不 同 选 择 对 应 于 此 类 不 同情 
况 。 对 h( ) 的 茶 些 选择 比 必 一 些 选择 要 好 一 些 , 这 依赖 于 附加 随机 假设 。 例 如 ， 
当 误 差 是 异 方差 时 ,hh 一 Xui 会 产生 OLS 佑 计量 , 而 h， 一 XUi;/VLui SS 则 产生 
Cl 估计 量 。 这 种 选择 hl*) 的 潜在 多 样 性 尤其 导致 任何 特殊 的 广义 矩 方法 估计 
量 。 然 而 ,在 m 估计 中 ,就 选择 而 言 ,从 性 质 上 来 看 ,必须 做 出 类 似 决策 ,例如 ,对 
误 其 平方 和 极 小 化 ,而 不 是 对 误差 加 权 平 方 和 或 误差 绝对 离 差 和 极 小 化 。 

如 采 做 出 完全 分 布 假设 ,那么 最 有 效 的 估计 量 是 MLE。 因 此 ,对 式 (6. 5) 中 
h(。) 的 最 优选 择 是 ， 

hew,g) = in f(w,0) 


《 


其 中 ,f(w.9) 表 示 w 的 联合 密度 。 对 于 具有 因 变 量 y 与 回归 元 x 的 回归 来 说 ,这 
征 一 个 基于 y 写 x 的 无 条 件 联合 密度 f(y,x,9) 的 无 条 件 MLE。 在 许多 应 用 中 ， 
f(y,xX,0) 一 f(y|x,0)g(x) ,其 中 ,x 的 边际 密度 (未 用 的 ) 参 数 不 依 赖 于 关注 9 的 参 
数 。 于 是 ,这 正 像 使 用 基于 条 件 密 度 f(y|x,0) 的 条 件 MLE 一 样 有 效 。 这 能 用 于 
矩 方 法 估计 或 者 市 有 加 权 和 矩阵 WA 二 的 广义 矩 方 法 估计 的 基础 ,尽管 任何 满 秩 
和 所 阵 Wn 也 将 给 出 MLE。 然 而 ,由 于 广义 矩 方法 估计 的 目的 是 为 了 避免 做 出 全 部 
分 布 假设 的 集合 ,所 以 这 种 结果 在 实际 应 用 中 很 有 限 。 

当做 出 不 完全 分 布 假设 时 ,一 个 普通 的 起 点 是 对 条 件 的 矩 条 件 (conditional 
moment condition) 进行 设 定 。 对 于 模型 误差 ,诸如 Elulxj| 二 0 或 Efulz| 二 0 来 说 ， 
这 通常 是 低 阶 和 矩 条 件 。 此 条 件 的 和 矩 条 件 能 导致 可 作为 广义 矩 方法 估计 基础 的 许多 
无 条 件 矩 条 件 (unconditional moment conditions) ,譬如 ELzu |] 二 0。 纽 韦 (Newey， 
1990a，1993) 曾 获得 对 于 在 不 同 i 上 为 独立 的 数据 的 无 条 件 的 矩 条 件 最 优选 择 结果 。 

特别 地 ,以 ;个 条 件 的 矩 条 件 约 束 开始 ,有 : 


ELrCy'xygo)1z] 一 0 《0. 23) 


其 中 ,r(。，) 表 示 6. 2. 2 节 引 进 的 残 差 型 *X1 维 向 量 函 数 。 一 个 纯 量 例子 是 
ELy 一 x0。12zj] 二 0。 这 里 使 用 了 工具 变量 记号 ,其 中 ,x 表示 回归 元 , 某 些 x 是 潜在 
内 生 的 ,z 表示 包括 x 的 外 生 元 素 的 工具 。 在 没有 内 生性 的 比较 简单 模型 中 ,有 z 一 x。 


微观 经 济 计 量 学 

建立 在 式 (6. 2. 3) 基 础 上 的 g 个 参数 8 的 广义 矩 方法 估计 是 不 可 行 的 ,因为 典 
型 地 讲 , 仅 仅 存 在 几 个 条 件 的 抢 约 束 , 而 且 情 况 经 常 如 此 ,所 以 sc。 相反 ,我 们 引 
进 一 个 >xs 阶 矩 阵 顺 数 工 具 D(z), 其 中 ,r 疡 9, 同时 注意 到 ,期 望 失 代 定 律 
ELD(Cz)rCy,x,go)] 一 0 能 用 作 广 义 矩 方法 估计 的 基础 。 可 以 证 明 , 和 抢 阵 函数 D(z) 
的 最 优 工具 (optimal instruments) 或 最 优选 择 是 gX; 阶 和 矩阵 : 


D' (2,0,) =E| Ye |z {VErGy,x,0,) 12]) (6. 24) 


例如 , 戴 维 条 和 才 金 农 (Davidson and MacKinnon，1993 ,第 604 页 ) 就 曾经 给 
出 一 种 推导 。 该 最 优 工具 矩阵 D* (z) 表 示 q Xs 阶 和 矩阵 ,因此 ,无 条 件 的 矩 条 件 
E[D" Cz) r(y,x,bu)] 一 0 刚好 产生 与 参数 同样 多 的 矩 条 件 。 最 优 广 义 矩 方法 估计 
量 直 接 求 解 与 之 相对 应 的 样本 和 拖 条 件 : 


AN 
>)D'(z,b)rCyx ,6) 一 0 (6. 25) 
一 1 


最 优 们 计量 需要 额外 的 假设 , 即 用 于 形成 式 (6. 24) 中 的 D(z,0,) 期 望 ,而 且 具 体 落 
实 要 求 用 已 知 参 数 代替 未 知 参 数 , 所 以 使 用 了 生成 回归 元 。 

例如 ,如 果 r(y,xX,9) 一 > 一 exp(xX0) ,那么 gr/a6 一 exp(x9)x, 而 式 (6. 24) 要 求 
对 ELexp(x 0o)x|zj 与 VLy 一 exp(x0)|zj] 进 行 设 定 。 一 种 可 能 性 就 是 假定 
ELexp(x0。)x|zj] 是 关于 z 的 低 阶 多 项 式 , 在 此 情况 下 ,将 存在 比 参数 个 数 更 多 的 矩 
条 件 , 故 通过 广义 矩 方法 进行 估计 ,而 不 是 用 式 (6. 25) 直接 估计 ,同时 假定 误差 是 
同方 差 的 。 厂 这 些 额 外 假设 是 错误 的 , 则 该 估计 量 仍 是 一 致 的 ,给 定式 (6. 23) 是 有 
效 的 ,并 利用 式 (6. 16) 中 方差 矩阵 的 稳健 形式 来 获得 一 致 标准 误差 。 一 种 更 普遍 
的 方法 是 , 直接 用 z 而 不 是 用 D(z,0。) 作 为 工具 。 

非 线性 回归 最 优 矩 条 件 事 倒 

在 一 些 情 况 下 ,特别 是 当 z 一 x 时 ,结果 (6. 24) 是 有 益 的 。 这 里 将 证 实 ,GLS 是 
基于 ELu|xj| 一 0 的 最 有 效 广义 矩 方法 估计 量 。 

考察 非 线 性 回归 模型 y 二 g(x,B) 十 w。 如 果 起 点 是 条 件 矩 约束 ELu|x] 二 0 或 
者 E[y 一 g(x, 8)|x] 二 0, 那 么 式 (6. 23) 中 z 一 x, 并 且 式 (6. 24) 产 生 : 


D' (x,8) =—E| (7 一 &(GxvGo)) x |{V[y~—g(x, Bo) | 一: 


__ 8X,H0) 、 1 

38 VLulx) 
这 仅 需 要 对 Viu|x] 进 行 设 定 。 由 式 (6. 25) 知 ,最 优 广义 托 方 法 佑 计量 可 直接 求解 
对 应 的 样本 抢 条 件 : 





lv gg(x;, 0B) x (yi ~ E(B)) _ 0 

N 0B 7 

其 中 ,oi 二 VLulx jj 在 肾 数 形式 上 与 8 无 天。 当 误 差 是 异 方差 时 ,这 些 是 广义 NLS 
的 一 阶 条 件 。 利 用 oi 的 一 致 估计 值 5; 来 实施 计算 是 可 行 的 ,在 此 情况 下 ,广义 矩 
方法 估计 与 FGNLS 是 一 样 的 。 对 o; 错误 设 定 来 说 ,人 们 能 获得 稳健 的 标准 误差 ， 
有 关 详 细 内 容 参见 5. 8 三 。 
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对 线性 模型 g(x,B) 二 xB 专门 研究 ,基于 ELu|xj 一 0 的 最 优 广 义 矩 方法 估计 
量 就 是 :GCLS; 进一步 对 同方 差 误差 情况 专门 研究 , 则 基于 ELu1xj 二 0 的 最 优 广义 
矩 方法 估计 量 正 是 OLS。 如 同 在 6. 3. 6 节 已 看 到 的 ,如 果 可 使 用 额外 条 件 的 和 矩 条 
件 ,那么 进行 更 有 效 的 估计 是 可 能 的 。 


6. 3.8 寻 过 度 识 别 约 束 的 检验 


利用 沃 尔 德 检验 (参见 5. 5 节 ) 或 者 由 7?.5 节 给 出 的 其 他 方法 ,对 8 进行 假设 

此 外 ,在 在 能 用 于 过 度 识别 模型 的 十 分 一 般 的 模型 设 定 检验 ,使 用 和 矩 条 件 个 数 
(r 个 ) 比 参数 个 数 (g 个 ) 多 的 过 度 识别 。 这 种 检验 是 N71! >,;h; 接近 于 0 的 封闭 性 
检验 ,其 中 ,一 hCw ,9 )。 这 是 对 Ho: ELhCw,b)] 王 0 进行 的 明显 检验 , 即 初始 
总 体 矩 条 件 。 对 于 恰好 识别 的 模型 来 说 ,估计 利用 了 N ! ih; 一 0, 从 而 这 种 检验 
是 不 可 行 的 。 然 而 ,对 于 过 度 识 别 模型 来 说 ,一 阶 条 件 (6. 8) 使 gxr 阶 和 矩阵 乘 以 
Nih; 的 秩 为 0, 其 中 ,g 过 r,; 所 以 2;h; 尖 0。 

在 特殊 情况 下 ,6 可 以 通过 式 (6. 18) 定 义 的 9 ooMM 得 以 估计 , 汉 森 (Hansen,， 
1982) 证 明 ,在 互 。: ELhCw,60o)j] 一 0 下 ,过 度 识别 约束 检验 统计 量 Loveridentifying 


restrictions (OIR) test sftatfistic |. 
OIR= (N71DO)h) SI(NT Dh) (6. 26) 


渐 近 服从 X (r 一 gq) 分 布 。 注 意 到 ,OIR 等 于 GMM 目标 函数 (6. 18) 在 6 oomwv 处 的 
计算 值 。 如 果 OIR 很 大 ,就 要 拒绝 总 体 握 条 件 , 而 广义 矩 方法 估计 量 关 于 6 是 不 
一 致 的 。 

式 (6. 26) 中 给 出 的 特殊 二 次 形式 Ni 在 态 。 下 服从 多 (7 一 gq) 分 布 的 先 
验 信息 是 不 明显 的 。 正 式 推导 将 在 下 一 节 给 出 ,而 在 线性 工具 变量 估计 的 情况 下 ， 
其 直观 解释 将 在 8. 4. 4 节 给 出 。 

一 种 经 典 应 用 就 是 消费 的 生命 周期 模型 (参见 6. 2.7 节 ), 在 此 情况 下 , 正 交 条 
件 是 欧 拉 条 件 。 很 大 的 卡 方 检验 统计 量 常常 表明 ,对 生命 周期 假设 的 拒绝 。 然 而 ， 
相反 , 它 更 应 该 揭 强 地 解释 为 对 效用 函数 特殊 设 定 的 拒绝 ,以 及 研究 中 所 使 用 的 随 
机 假设 集合 。 


6.3.9 广义 佐 廊 法 仿 计 量 扒 导 
通过 引入 更 简洁 记号 ,可 简化 代数 运算 。 广 义 矩 方法 估计 量 极 小 化 下 式 : 


QN(0) 一 8NC9) WANgN(O) (6. 27) 
其 中 ,gn (0) 二 N12,h;(0)。 那 么 ,广义 站 方法 一 阶 条 件 (6.8) 变 成 . 
Gv0) Wnen 0) 一 0 (6. 28) 


其 中 ,Gn (60) 二 9gn (0)/909 一 N12,9h,(0) /30 。 
就 一 致 性 而 言 , 考察 9QN (8)/981, 的 概率 极限 等 于 0 的 非 正 式 条 件 。 由 式 
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(6. 28) 知 ,如 同 Gn (8) 与 Wn 具有 有 限 概 率 极限 的 情况 一 样 ,由 命题 6. 1 的 假设 
(ii iv) 和 (Cv) 可 知 ,plim gn (0,) 二 0。 更 直观 地 讲 , 如果 应 用 大 数 定律 ,同时 
E[h (0,) 二 0, 那 么 gn (606) 二 N22,h; (0,) 具 有 概率 极限 0, 这 是 在 式 (6.5) 开 始 时 
所 做 出 的 假设 。 

由 重要 假设 (ii) 以 及 另外 的 假设 (Cii) 与 (iv) 知 ,参数 9 是 可 识别 的 ,这 几 个 假 
设 把 Gn(0o) 及 Wn 的 概率 极限 限制 成 为 满 秩 乱 阵 。Go 一 plim Gn (0, ) 是 满 秩 和 矩阵 
的 假设 , 称 为 识别 (Cidentification) 的 秩 条 件 (Crank condition) 。 识 别 的 一 个 比较 旷 的 
必要 条 件 是 阶 条 件 (order condition) , 即 7 之 w。 

对 渐 近 正 态 性 来 说 ,与 基于 目标 函数 QN(B) 二 NN !2;g Cwi,0) 的 估计 量 相 比 ， 
它 需 要 更 一 般 的 理论 ,这 里 ,N- 2g (wi,0) 刚 好 涉及 其 和 式 。 我 们 通过 用 vyN 乘 
以 式 (6. 28) 来 重新 标 度 ,所 以 有 : 

Gn(0) Wn VNgN(9 ) 一 0 (6. 29) 

一 般 性 定理 5. 3 的 方法 是 对 式 (6. 28) 左 边 在 gs 处 附近 取 泰 勒 级 数 展开 式 。 由 于 8 

既 出 现在 第 一 项 也 出 现在 第 三 项 中 ,所 以 这 个 式 子 很 复杂 ,同时 要 求 Gn (9) 的 一 阶 

导数 存在 ,从 而 要 求 gy (8) 的 二 阶 导数 存在 。 由 于 Gn (8 ) 与 Wn 具有 有 限 概率 ,所 

以 更 直接 地 ,仅仅 对 VNegn (0 ) 取 准确 的 泰勒 级 数 表 达 式 就 足够 了 。 这 会 产生 类 似 
于 第 5 章 曾 经 讨论 的 m 估计 表达 式 ,满足 : 

VNgNv(8 ) 一 VNgNv(0) 十 Gv(9+ )VNCO —0,) (6. 30) 


回顾 Gn (0) 二 9gn (0) /99 ,其 中 ,01 表示 位 于 0 与 8 之 间 的 点 。 把 式 (6. 30) 代 入 
式 (6. 29) ,得 到 : 


Gn (0) Wuv[vNgv(0) 二 TGv(C+ VN 一 b)] 一 0 
求解 VNC6 一 9。) ,得 出 : 
VN (8 一 9) 王 一 L[GN(C9) WyGn(07)] -IIGN() Wy VNgn 0) (6.31) 
求解 广义 矩 方 法 估计 量 的 极限 分 布 时 ,等 式 (6. 31) 是 一 个 重要 结果 。 给 定 一 
致 性 , 即 在 6 > 9。 条件 下 ,可 得 到 前 五 项 中 每 一 项 的 概率 极限 ,在 此 情况 下 ， 
b+ 人 go。 由 假设 (v) 可 知 , 式 (6. 31) 右 边 最 后 一 项 具有 极限 正 态 分 布 。 因 而 : 


~ d / / 
VN(O —080) > — (Go WoGo) Go Wo XNI[O , So | 


其 中 ,Go 、Wo 以 及 SS 已 由 命题 6. 1 定义 。 若 利用 极限 正 态 乘积 规则 (定理 A. 17)， 
则 可 得 出 式 (6. 11)。 
这 种 推导 是 把 广义 矩 方法 一 阶 条 件 处 理 成 为 个 样本 矩 gy (0 ) 的 9 个 线性 组 
合 ,这 是 因为 ,Gv(6 ) Ww、 是 gaXr 阶 矩阵。 由 于 Gv(6 ) Ww 是 满 秩 方 阵 , 所 以 广义 矩 
方法 估计 量 是 当 g 王 ~ 时 的 特殊 情况 ,因而 Gy (0) Wngn (0 ) 一 0 蕴含 gv(6 ) 一 0. 
为 了 推导 出 式 (6. 26) 的 OIR 检验 统计 量 分 布 ,以 在 8 附近 vVNgnv(6 ) 的 一 阶 
泰勒 级 数 展开 开始 ,得 出 、 
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V Ngn (Oocmm) = vV Negn (O06) +GN (Ot ) VN(COo mm —0,) 
=V Negn(0)—G, (GS Go) -1GIS VNegn (Oo)++o,(1) 
=[I—MoS, Jv Negn (0,)+to,(1) 
其 中 ,第 二 个 等 式 运用 了 含有 对 于 S。 来 说 一 致 的 Ww 的 式 (6. 31), Mo = 
Go(GoS，Go) Go ,而 w(1) 已 由 定义 A. 22 给 出 。 由 此 可 得 : 


Sy VNEgn Ooomm) =S, [I—MoS; JV Nen (Oo)+to, 1) (6. 32) 
一 [LI 一 S 一 MoSy JS, VNen (Oo) to,(1) 
现在 ,LI 一 S “Mo。oS。“] 二 [1 一 Ss “Go (GoSo'G。o) GoS  ] 是 秩 为 (> 一 g) 的 寡 等 


矩阵 ,并 且 Si VNgv(6) -> NM [0, 口 给 出 VNgv(g) 人 M[0,Su]。 几 正 态 变量 
的 二 次 形式 标准 结果 可 知 ,内 积 


ZN 一 (S V Ngn (Qocmm ) ) SS VJNgv(COucwwD) ) 
收敛 到 X (7 一 g) 分 布 。 


6.4 线性 工具 变量 


回归 元 与 误差 项 相关 ,会 导致 最 小 二 乘法 的 非 一 臻 性。 这 类 失效 的 例子 包括 
省 略 变 量 . 联 立 性 .回归 元 的 测量 误差 以 及 样本 选择 偏 傈 。 倘 若 存 在 合适 的 工具 ， 
工具 变量 方法 就 能 提供 解决 这 些 问题 的 一 般 方法 。 

当然 ,工具 变量 方法 属于 广义 窍 方 法 框架 ,因为 过 剩 的 工具 导致 能 用 于 估计 的 
短 条 件 过 多 。 利 用 广义 和 矩 方 法 框架 ,很 容易 获得 许多 IV 结果 。 

线性 工具 变量 是 非常 重要 的 ,本 书 许 多 地 方 都 曾 出 现 。 对 它 的 介绍 已 由 4. 8 
与 4.9 市 给 出 。 本 节 阐 述 作为 三 义 矩 方法 特殊 应 用 的 单方 程 线性 工具 变量 。 为 
了 完整 起 见 ,本 节 还 阐述 一 种 特殊 情况 的 较 早 文献 , 即 两 阶段 最 小 二 乘法 估计 量 。 
系统 线性 工具 变量 估计 将 在 6. 9. 5 节 加 以 概述 。 而 8.4 节 则 详 述 对 线性 模型 的 内 
生性 检验 以 及 对 过 度 识别 约束 的 检验 。 第 22 章 将 闸 述 具有 面板 数据 的 线性 工具 
变量 估计 。 
6.4.1 带 有 工具 的 线 糙 广义 逢 方 洲 

考察 线性 回归 模型 : 

yi—=x0 Tu; (6. 33) 


其 中 ,名 x 的 每 个 元 素 与 模型 (6. 33) 中 的 误差 项 相关 ,x 的 每 一 个 元 素 都 可 被 看 成 
外 生 回归 元 (exogenous regressors) 。 奉 所 有 回归 元 都 是 外 生 的 , 则 使 用 LS 估计 量 ; 
若 x 的 任 一 个 元 素 都 是 内 生 的 , 则 LS 估计 量 关 于 8 是 非 一 致 的 。 

由 4. 8 节 可 知 , 通 过 工具 变量 估计 ,可 获得 一 化 人 和 估计。 其 关键 假设 是 存在 rX1 
维 工 具 向 量 z(instrument z) , 它 满 足 ， 


Eluwu;lz |=0 (0. 34) 


微观 经 济 计量 学 
外 生 回 归 元 能 够 由 其 自身 作为 工具 。 由 于 必须 至 少 存在 与 回归 元 个 数 一 样 多 的 工 
县 ,所 以 找 出 至 少 等 于 模型 中 内 生变 量 个 数 的 额外 工具 是 一 种 挑战 。4. 8. 2 节 已 
经 给 出 这 种 工具 的 一 些 例子 。 

线性 广义 矩 方法 估计 量 

由 6. 2. 5 节 可 知 , 条 件 矩 约束 (6. 34) 与 模型 (6. 33) 列 含 着 无 条 件 矩 约 柬 ; 


ELzi (yy 一 XGO)]= 一 0 (6. 35) 


为 了 令 记 号 简洁 ,下 述 分 析 使 用 而 不 是 更 正式 的 Gu 来 表示 真实 参数 值 。 相 对 
应 的 样本 和 矩 中 二 次 形式 会 导致 式 (6. 4) 给 出 的 广义 矩 方法 目标 函数 Qvw(G)。 
与 以 往 一 样 ,使 用 矩阵 记号 定义 y 一 XG 二 u, 并 设 忆 表示 和 Xr 阶 工具 和 矩阵 ,其 
第 1 行为 Zi 。 那么 ， 27 yi 一 XI) 一 Zu, 式 (6. 4) 丰 为 . 
Q(B)= [NY—X8)'Z |Wy| 六 DC 一 XG) | (6. 36) 
其 中 ,Wn 表示 rr Xr 阶 满 秩 的 对 称 加 权 和 矩阵 ,一 个 重要 例子 将 在 本 节 末 尾 给 出 。 在 
这 种 广义 和 拖 方 法 特殊 情况 下 ,一 阶 条 件 : 
IaQN(C9) rl 1 加 
= ?| NX Z |wv| NZ (y XB) |=0 
实际 上 能 求解 出 8, 导致 线性 工具 变量 模型 的 广义 矩 方法 估计 量 (GMIM estimator 
in the linear IV model). 
Bm =[X ZWNZX] 'X ZWNZ'y (6. 37) 
这 里 ,消去 了 被 N 除 的 项 。 
线性 广义 矩 方法 估计 量 分 布 
6. 3 节 的 一 般 性 结果 能 用 于 推导 渐 近 分 布 。 否 则 ,由 于 存在 sw 的 显 性 解 , 运 
用 4.4 节 给 出 的 OLS 分 析 来 适应 这 个 要 求 。 把 y 二 XB 十 代入 式 (6. 37) ,得 到 
Bum =B+EON IX TWN ON ZX)] CNTIX ZWN CN Zu) (6. 38) 
由 最 后 一 项 知道 ,广义 矩 方法 估计 量 的 一 致 性 本 质 上 要 求 plim N 1Z uu 一 0。 在 纯 
随机 抽样 条 件 下 ,需要 式 (6. 35) 成 立 , 而 在 其 他 普通 抽样 方案 下 (参见 24. 3 节 ), 则 
需要 比较 强 的 假设 (6. 34) 。 
此 外 ,倘若 Wn 是 满 秩 的 ,8 的 识别 秩 条 件 (rank condition) 即 plim N ZX 是 
秩 为 K 的 ,这 就 确保 了 右边 逆 存 在 。 一 个 较 弱 条 件 是 > 之 天 。 
极限 分 布 建立 在 VN( Bomu 一 BB) 表达 式 的 基础 上 ,该 式 可 以 通过 直接 对 式 
(6. 38) 加 以 处 理 而 得 到 。 这 就 得 出 &wu 的 渐 近 正 态 分 布 ,其 均值 为 8, 而 估计 渐 
近 方 差 为 : 
V[ Aum l=N[X ZWNZ XI [XZWNSWNZ XI[X ZWNZ XX]! (6.39) 
其 中 ,S 表示 


N 
S 一 lim 1 > El wu:; zz | 
N 全 
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的 一 致 估计 值 ,给 定 对 于 不 同 i 的 具有 通常 横 截 面 独 立 性 的 假设 。 必 不 可 少 的 额 
外 假设 需要 式 (6. 39) 是 N-YeZ'u 全 MX[0,S]。 结 果 (6. 39) 还 可 以 由 满足 h(.) 一 
z(y 一 XG) 的 命题 6. 1 得 出 ,从 而 9h/968 = 二 一 zx 。 
对 带 有 蜡 方差 误差 的 横 截 面 来 说 ,S 可 通过 
S 一 2 U2,2;— ZZ DZ/N (6. 40) 
一 致 估计 出 来 ,其 中 ,六 一 一 允 ww 表示 广义 矩 方法 残 差 ,而 D 表示 NXN 阶 对 
角 和 矩阵 ,其 各 个 元 素 为 妈 。 一 种 广泛 运用 的 小 样本 调整 方法 是 用 N 一 K 而 不 是 N 
去 除 公 式 S。 在 更 有 约束 性 的 同方 差 误差 下 , E[w |z] 一 ,因而 S= 
lim NozE[Lzz ,所 以 得 出 估计 值 : 
S—s7Z/N (6. 41) 


其 中 , # 一 CN 一 K)- 了 1 局 表示 oa? 的 一 致 估计 值 。 这 些 结果 非常 类 似 于 4.4.5 
节 所 述 的 普通 最 小 二 乘法 的 结果 。 
6. 4. 2 各 种 不 局 线性 广义 甜 方 活 估 计量 

应 用 6. 4. 1 节 的 结果 ,需要 对 加 权 和 矩阵 Wn 进行 假定 。 对 恰好 识别 模型 来 说 ， 
对 Ww 的 所 有 选取 会 产生 相同 的 估计 量 。 对 过 度 识别 模型 来 说 ,存在 对 Ww 的 两 
种 普遍 选取 方法 。 


当 假 定 独 立 异 方差 误差 时 , 表 6. 2 概括 了 这 些 估 计量 ,并 给 出 了 由 式 (6. 39) 给 
定 的 信 计 方差 矩阵 的 适当 设 定 。 


表 6.2 线性 工具 变量 模型 的 广义 矩 方法 估计 量 及 其 渐 近 方差 * 


估计 量 定义 与 渐 近 方差 
GMM Bivm =[X ZWNZ XX ZWNZY 
(一 般 Ww) VL[ BJ]=N[XZWvZX] '[X ZW SWNZ XILX ZWNZX]! 
最 优 GMM Bow 一 [XI7S-17Z'X]-1IX'ZS 7Z'Yy 
(Wn =S-!) V[ 8]=N[LX ZS 'ZX]-! 
2SLS Baas=[LX ZIIT) I ZX] XZ ZT ZYy 
(Wn=[N 7 ZZ)!) VL Bj]=NLXZ2Z7) ZT XI XZ ZZ) SZ 2) 1 X] 


xXx[XZZI) DX)! z 
若 同 方差 误差 , 则 VL 6 一 ss [XZZT) 1Z XJ 
IV Bwv=[ZX)! Z'y 
(恰好 识别 ) VL]=NCZX)-ISCX'Z)-: 
a 方程 建立 在 线性 回 妇 模型 的 基础 上 ,线性 回归 模型 的 因 变 量 为 y, 回归 元 为 X, 而 工具 为 Z。S$ 已 由 式 

(6. 40) 和 定义 ,而 已 在 式 (6. 41) 后 面 定 义 。 除 了 对 于 2SLS 估计 量 给 定 的 同方 差 误 差 进行 简化 之 外 ,所 有 的 
方差 矩阵 估计 和 值 都 假定 误差 对 于 不 同 的 观测 值 来 说 是 独立 有 旦 异 方 差 的 。 最 优 广 义 矩 方法 使 用 最 优 加 权 
矩阵 。 


微观 经 济 计量 学 

工具 变量 估计 晤 

在 恰好 识别 r= 二 KK 的 情况 下 ,XZ 是 一 个 可 道 方 了 泗 。 于 是 ,[X’ZWNZ'X] :一 
(ZX) IW (XZ) -从 而 式 (6. 37) 简 化 成 工具 变量 (instrumental variables ) 估 
计量 : 


Brv=(ZX) ZYy (6. 42) 


这 已 在 4.8.6 市 引入 。 对 恰好 识别 模型 来 说 ,就 WA 的 任何 选取 而 言 ,广义 矩 方法 
估计 量 都 等 于 工具 变量 估计 量 。 

简单 工具 变量 估计 量 还 能 用 于 过 度 识 别 模型 中 ,通过 去 掉 一 些 工具 以 使 该 模 
型 是 恰好 识别 的 ,与 利用 所 有 工具 的 情况 相 比 ,这 会 使 有 效 性 降低 。 

最 优 加 权 GMM 

由 6. 3. 5 市 和 道 ,对 过 度 识 别 模型 来 说 ,最 有 效 的 广义 矩 方法 估计 量 , 即 带 有 
最 优选 取 加 权 和 矩 阵 的 广义 和 矩 方 法 ,就 是 把 式 (6. 37) 中 的 Ww 设 为 Wn 二 S71!，。 

线性 工具 变量 模型 的 最 优 广 义 失 方法 估计 量 或 两 步 广 义 矩 方法 估计 量 (opti- 
mal GIMIM estimator or two-step GMM estimator ) 是 : 


Bmm =[ (XT)S 1 FX) |! XT)S 1 (ZY) (6. 43) 


对 异 方差 误差 来 说 ,利用 建立 在 第 一 步 一 致 估计 值 户 基 础 上 的 式 (6. 40) ,比如 由 
式 (6. 44) 定 义 的 2SLS 估计 量 , 就 可 计算 $。 怀 特 CWhite，1982) 把 这 种 估计 量 称 
为 两 阶段 工具 变量 估计 量 (two-stage IV estimator) ,这 是 因为 两 步 都 需要 工具 变量 
估计 。 

表 6.2 给 出 的 最 优 广 义 矩 方法 的 佑 计 渐 近 方 差 矩 阵 具 有 相对 简单 的 形式 , 因 
为 当 Wn 二 S71 时 , 式 (6. 39) 得 以 简化 。 在 计算 估计 方差 时 ,人 们 可 使 用 如 表 6. 2 所 
述 的 $, 然 而 ,一 种 更 普遍 的 方法 是 使 用 估计 $ ,例如 ,也 可 利用 式 (6. 40) 进 行 计算 ， 
但 需要 在 最 优 广义 矩 方法 估计 量 处 计算 残 差 , 而 不 是 建立 式 (6. 43) 中 S 的 第 一 步 
估计 值 。 

两 阶段 最 小 二 乘法 

如 果 误 差 是 同方 差 的 而 不 是 异 方差 的 ,那么 由 式 (6. 41) 知 ,SS 一 [2N7IZ ZI] 
于 是 , 式 (6. 37) 可 引出 两 阶段 最 小 二 乘法 估计 量 (two-stage least-squares estimator) 
的 Wn 二 CN 71Z ZV) 1, 它 能 以 简洁 形式 表述 成 : 


Gas=[X PX] [X Pzy | (6. 44) 


其 中 ,Pz 二 ZZZ ) :Z 。 下 一 节 将 阐述 两 阶段 最 小 二 乘法 内 容 的 基础 。2SLS 估计 
量 还 称 为 广义 工具 变量 估计 量 [generalized instrumental variables (GIV) estima- 
tor] ,因为 它 把 工具 变量 估计 量 推广 到 工具 个 数 比 回归 元 个 数 还 多 的 过 度 识 别 上 。 
由 于 式 (6. 44) 能 以 一 步 方 式 计 算出 来 ,所 以 它 也 称 为 一 步 广 义 托 方法 Cone-step 
GMMD , 而 最 优 广 义 抢 方法 则 需要 两 步 。 

2SLS 估计 量 服从 渐 近 正 态 分 布 , 其 估计 渐 近 方差 已 由 表 6. 2 给 出 。 如 果 人 们 
想 要 提防 异 方差 误差 ,就 应 该 使 用 一 般 形式 ;而 许多 引 论 性 教科 书 所 阐述 的 较 简 单 
形式 ,只 有 在 误差 本 质 上 是 同方 差 的 时 候 才 是 一 致 的 。 


6 广义 矩 方法 与 系统 估计 


mr 


最 优 广 闵 矩 方法 与 2SLS 

在 过 度 识别 模型 中 ,不 但 最 优 广义 算 方 法 会 使 有 效 性 提高 ,而 且 2SLS 估计 量 
也 会 使 有 效 性 提高 。 若 误差 是 异 方差 ,最 优 广义 矩 方法 在 有 效 性 上 胜 过 2SLS, 尺 
管 其 有 效 性 提高 并 不 大 。7.5 节 给 出 一 些 广义 年 方 法 检验 程序 ,而 第 8 章 将 假定 
利用 最 优 加 权 和 矩阵 进行 估计 。 与 2SLS 相 比 ,最 优 广 义 托 方法 具有 需要 额外 计算 
的 缺点 。 此 外 ,如 同 6. 3. 5 节 讨 论 的 , 渐 近 理论 为 最 优 广义 矩 方法 估计 量 分 布 提供 
了 不 好 的 小 样本 近似 。 

在 横 截 面 应 用 中 ,尽管 其 推断 建立 在 异 方差 稳健 标准 误差 的 基础 上 ,但 普遍 使 
用 的 却 是 稍 欠 有 效 的 2SLS。 

更 有 效 的 广义 矩 方法 估计 

估计 量 Bewmw 是 建立 在 无 条 件 矩 条 件 E[ziu;] 二 0 基础 之 上 的 最 有 效 估计 量 ， 
其 中 ,w= 二 yy; 一 XB 。 不 过 , 若 起 始点 是 条 件 矩 条 件 ELu |z;] 二 0, 且 误差 是 异 方差 
的 ,意味 着 VLu;|z; j 随 z 而 变化 , 则 这 就 不 是 最 佳 的 矩 条 件 。 

应 用 6. 3.7 节 的 一 般 结果 ,我 们 能 把 建立 在 ELu;|z, j==0 基础 上 的 广义 矩 方法 
估计 最 优 和 矩 条 件 写 成 : 


E| Elx,|z lu/Viu lz ||=0 (6. 45) 


正如 6. 3.7 节 的 LS 回归 例子 ,人 们 应 该 用 误差 方差 VLu|zj 去 除 。 不 过 ,实施 起 来 
要 比 LS 情况 更 困难 一 些 ,因为 除了 对 VLu|zj 设 定之 外 ,还 需要 对 ELx|zj 模 型 进 
行 设 定 。 这 可 能 带 有 额外 结构 。 特 别 地 ,对 线性 联 立 方程 组 来 说 ,ELx;|z; 关于 7z 
是 线性 的 ,因而 估计 建立 在 ELxiu;/VLu|zi jj 二 0 的 基础 上 。 

就 线性 模型 而 言 ,通常 广义 矩 方法 佑 计量 建立 在 比较 简单 的 条 件 ELzu; | 二 0 
的 基础 上 。 已 知 这 个 条 件 , 由 式 (6. 43) 定 义 的 最 优 通 常 广义 滤 方 法 估计 量 是 最 有 
效 的 广义 矩 方法 佑 计量 。 


6. 4.3 一 种 可 侈 择 的 两 阶段 最 小 二 乘法 推导 


2SLS 估计 量 , 即 过 度 识别 模型 的 标准 IV 佑 计量, 已 在 6.4.2 节 推导 出 来 并 作 
为 广义 矩 方 法 佑 计量 。 

这 里 ,我们 阐述 2SLS 佑 计量 的 三 种 其 他 推导 。 这 些 推导 之 一 归功 于 泰和 尔 
《Theil) , 它 提供 了 在 推导 时 间 上 早 于 广义 矩 方 法 的 2SLS 最 初 动机 。 泰 尔 给 出 的 
解释 强调 了 初步 性 处 理 。 不 过 , 它 并 不 能 推广 到 非 线 性 模型 ,而 广 闵 矩 方法 解释 则 
可 以 。 


考察 线性 模型 . 
y 一 XGTH (6. 46) 
它 满足 E[a|Z1 二 0, 而 且 VLulZ] 王 到 工 
变换 模型 的 GLS 
用 工具 Z' 左 乘 式 (6. 46) ,得 到 变换 模型 : 
7'y—= ZXB+Z (6. 47) 
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当 r 二 上 时 ,这 个 变换 模型 经 常用 于 引出 工具 变量 佑 计量 的 动机 ,这 是 因为 
N-IZu->0, 故 可 忽略 Zu, 从 而 求解 出 B 一 (ZX)-1Z'y。 

不 过 ,这 里 考察 过 度 识 别 的 情况 。 已 知 式 (6. 46) 后 面 的 假设 ,以 乙 为 条 件 的 误 
差 Zu 具有 和 零 均 值 , 且 方 差 为 ZZ。 从 而 ,模型 (6. 46) 中 B 的 有 效 GLS 估计 量 是 : 


B=[XZ0Z7T) TX) XZ GDI) ZYy (6. 48) 


这 等 于 式 (6. 44) 的 2SLS 估计 量 , 因 为 可 消去 乘 数 上 。 更 一 般 地 讲 , 注 意 到 , 厂 变 
换 模型 (6. 47) 可 由 带 有 加 权 和 矩阵 Ww 的 WLS 加 以 估计 , 则 可 获得 更 一 般 的 估计 量 
(6. 37) 。 

泰 尔 的 解释 

泰 尔 (Theil，1953) 提 出 ,除了 用 在 渐 近 形式 上 与 误差 项 不 相关 的 预测 值 X 代 
替 回 归 元 X 之 外 ,对 最 初 模型 (6. 46) 通 过 OLS 回归 进行 估计 。 

假如 在 第 一 阶段 模型 (first-stage model) 中 ,回归 元 XX 是 工具 与 菜 个 误差 的 线 
性 组 合 , 因 而 有 : 


X=ZII-vY (6. 49) 


其 中 ,II 表示 K Xr 阶 和 矩阵。X 对 Z 的 多 变量 OLS 回归 产生 了 估计 量 开 二 
(Z'Z)-1Z'X 以 及 OLS 预测 值 X 一 ZIT, 或 : 
X=P,X 
其 中 ,Py 二 Z(Z'Z) -1Z 。y 对 XX 而 不 是 对 XX 进行 回归 ,得 出 估计 量 : 
Bar =(XX) 'X’y (6. 50) 
秦 尔 的 解释 允许 通过 两 个 OLS 回归 得 以 计算 ,其 中 ,第 一 阶段 OLS 给 出 X, 第 二 阶 
段 给 出 9, 从 而 得 出 两 阶段 最 小 二 乘法 估计 量 (tworstage least-squares estimator) 。 
为 了 建立 这 个 估计 量 的 一 致 性 ,把 线性 模型 (6. 46) 重 新 与 成 : 

y 一 XG 十 (X 一 X)CG 十 u 
若 回归 元 文 与 综合 误差 项 (X 一 义 ) 8 十 u 是 渐 近 不 相关 的 , 则 y 对 XX 的 第 二 阶段 
OLS 回归 会 产生 8 的 一 致 估计 量 。 若 六 是 一 个 任意 代表 性 变量 , 则 不 存在 任何 理 
由 使 该 式 成 立 ; 不 过 , 当 OLS 预测 值 正 交 于 OLS 残 差 时 ,X 与 (X 一 X) 是 不 相关 的 。 
因而 ,plim N -!X (X 一 X)B8 二 0。 而且: 

N-iXu=N XPu—=N XZN ZZ IN Zn 
于 是 , 蕉 Zz 是 一 个 有 效 工具 ,X 与 u 是 渐 近 不 相关 的 , 则 plim N 1Zu 一 0。 [Bx 的 
这 个 一 致 性 结果 紧密 地 依赖 于 模型 的 线性 ,并 月 不 能 被 推广 到 非 线性 模型 。 
式 (6. 50) 中 的 泰 尔 估计 量 等 于 前 面 式 (6. 44) 所 定义 的 2SLS 估计 量 。 于 是 ,有 : 
Bsr =—(X X) IX’y 
一 (X PrP,X) 'X Pzy 
一 (X PX) 'X Pzy 
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这 是 2SLS 估计 量 , 最 后 等 式 中 运用 了 PzPy 一 Py。 

利用 泰 尔 方法 实施 2SLS 时 ,需要 小 心 谨 愤 。 第 二 阶段 OLS 将 给 出 错误 的 标 
准 误差 ,即使 误差 是 同方 差 的 ,因为 它 利用 第 二 阶段 OLS 回归 残 差 (y 一 久 D) 而 不 
是 实际 残 差 (y 一 XB) 来 估计 oo?。 在 实际 应 用 中 ,人 们 还 可 对 异 方差 误差 进行 调整 。 
一 种 更 容易 的 方法 是 将 2SLS 作为 选项 ,直接 计算 式 (6. 44) 以 及 由 表 6. 2 给 出 的 相 
应 方差 矩阵 。 

正如 6. 5. 4 节 所 要 阐述 的 ,这 种 2SLS 解释 并 不 总 是 可 延续 到 非 线 性 模型 上 。 
广义 和 矩 方法 解释 却 可 被 推广 到 非 线 性 模型 ,而 且 正 因为 如 此 ,这 里 就 更 加 强调 它 ， 
而 不 是 泰 尔 最 初 的 对 线性 2SLS 推导 。 

实际 上 , 泰 尔 所 考察 的 模型 是 ,回归 元 X 中 仅仅 有 一 部 分 是 内 生 的 ,而 其 余部 
分 是 外 生 的 。 倘 若 闵 的 所 有 外 生成 分 都 已 包含 在 工具 ZzZ 中 , 则 前 面 的 分 析 仍 是 可 
以 应 用 的 。 那 么 ,外 生 回 归 元 对 工具 的 第 一 阶段 OLS 回归 拟 合 得 很 好 ,同时 外 生 
回归 元 的 预测 值 等 于 其 实际 值 。 因 此 ,在 实际 应 用 中 ,第 一 阶段 中 仅 有 内 生变 量 对 
工具 进行 回归 ,而 第 二 阶段 是 y 对 外 生 回 归 元 与 内 生变 量 回归 元 的 第 一 阶段 预测 
值 进行 回归 。 

巴 斯 曼 的 解释 

在 恰好 识别 情况 下 , 巴 斯 曼 (Basmann，1957) 提 出 作为 工具 的 简单 工具 变量 估 
计量 的 OLS 第 一 阶段 预测 值 X 王 PzX, 因为 确实 存在 与 回归 元 X 一 样 多 的 工具 X。 
这 就 得 出 : 

Ce 有 一 (XX) IIXy (6. 51) 


因为 plim NIXu 一 0, 正 如 对 秦 尔 估计 量 所 说 明 的 ,该 估计 量 是 一 致 的 。 
实际 上 ,估计 量 (6. 51) 等 于 式 (6. 44) 定义 的 2SLS 估计 量 , 这 是 因为 X 一 
X P> 。 
这 种 工具 变量 方法 将 产生 正确 的 标准 误差 ,并 能 够 推广 到 非 线 性 背景 。 


6. 4.4 可 供 选 择 的 奈 准 工具 变 重 估计 重 


当 一 些 回归 元 是 内 生 的 时 候 ,6. 4. 2 节 曾 阐述 的 基于 工具 变量 的 最 优 广义 矩 
方法 与 2SLS 估计 量 ,都 是 可 以 利用 的 标准 估计 量 。 切 尔 详 朱 科 夫 和 汉 条 (CCher- 
nozhukov and Hansen,2005) 曾 述 了 分 位 数 回归 的 工具 变量 估计 量 。 

这 里 ,我 们 简要 讨论 重要 的 可 供 选 择 的 估计 量 , 已 知 4.9 节 中 详 述 的 带 有 弱 工 
具 的 2SLS 不 好 的 有 限 样 本 性 质 , 这 些 估计 量 重 新 引起 人 们 关注 。 

有 限 信息 极 大 似 然 法 

假定 同方 差 正 态 误差 ,通过 联合 单方 程 (6. 46) 的 极 大 似 然 估 计 与 式 (6. 46) 右 
边 的 内 生 回 归 元 的 简化 式 , 就 可 获得 有 限 信 息 极 大 似 然 估 计量 Llimited-information 
maximum likelihood (LIML)estimator |。 有 关 详 细 内 容 , 可 参见 格林 (Greene， 
2003 ,第 402 页 ) 或 者 戴维森 和 麦 金 农 (Davidson and MacKinnon，1993， 第 644 一 
651 页 ) 。 更 一 般 地 讲 ,& 种 类 型 估计 量 [ 例 如 ,参见 格林 (Greene，2003, 第 403 
页 ) | 包括 LIML .2SLS 以 及 OLS。 
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归功 于 安德森 和 和 鲁 宾 (Anderson and Rubin，1949) 的 有 限 信 息 极 大 似 然 估计 
量 , 先 于 2SLS 估计 量 。 与 2SLS 不 同 ,对 用 于 联 立 方程 组 的 正规 化 来 说 ,有 限 信 息 
极 大 似 然 估计 量 是 不 变 的 。 男 外 ,已 知 同 方差 误差 ,有 限 信 息 极 大 似 然 与 2SLS 是 
渐 近 等 价 的 。 不 过 , 却 极 少 使 用 有 限 信 息 极 大 似 然 ,因为 它 实 施 起 来 更 困难 ,并 且 
与 2SLS 相 比 ,对 其 解释 也 更 难 一 些 。 册 克 (Bekker，1994) 曾 经 阐述 有 限 信 息 极 大 
位 然 的 小 样本 结果 以 及 有 限 信息 极 大 似 然 的 推广 情况 ,还 可 和 参见 哈恩 和 豪 斯 曼 
(Hahn and Hausman，2002) 。 

分 裂 样 本 工具 变量 

我 们 以 巴 斯 曼 把 2SLS 作为 式 (6. 51) 中 给 定 的 工具 变量 估计 量 解释 作为 开 
始 。 将 式 (6. 46) 中 的 y 代 入 ,得 到 ， 


B=8+XX) Xu 


由 假设 ,plim N71Z v= 一 0, 因而 plim N -1X0= 一 0, 从 而 8 是 一 致 的 。 不 过 ,由 于 工具 
变量 估计 的 缘故 ,X 与 u 之 间 的 相关 意味 着 X=PzX 与 u 相关 。 因 此 ,EL[X uj] 关 0， 
这 会 使 工具 变量 估计 量 有 偏 。 这 种 偏 倚 产 生 于 利用 X=ZHE 而 不 是 X= ZHI 作为 
工具 。 

可 是 ,一 种 可 选择 的 方法 是 使 用 工具 预测 值 X, 它 除了 满足 plim N -Xu=0 
之 外 ,还 具有 ELX' =0 的 性 质 , 并 且 使 用 佑 计量: 

B=(XX) 1X’y 

由 于 E[X ul 二 0 并 不 蕴含 E[ (XXX) XX 二 0, 这 个 估计 量 仍 将 是 有 偏 的 ,但 此 偏 
倚 可 以 减 小 。 

安 格 里 斯 特 和 克 鲁 格 (Angrist and Krueger，1995 ) 提 出 ,通过 把 样本 分 裂 成 网 
个 子 样本 (yi ,Xl1 ,A ) 与 (y; ,入 2 ， ) 来 获得 这 类 工具 。 第 一 个 样本 用 于 从 XI 对 7 
的 回归 中 获得 估计 值 下 。 第 二 个 样本 用 于 获得 工具 变量 估计 量 , 其 中 ,工具 X, 二 
ZT 使 用 了 从 单独 的 第 一 个 样本 中 所 获得 的 王 ; 。 安 格 里 斯 特 和 克 和 鲁 格 (Angrist 


and Krueger，1995) 把 无 偏 的 分 裂 样 本 工具 变量 估计 量 Cunbiased split-sample IV 
estimator) 定 义 为 : 


Gussrv ~ (XX,) 'X y2 


建立 在 泰 尔 对 2SLS 的 解释 基础 上 ,分 裂 样 本 工具 变量 信和 计量 (split-sample IV esti- 
mator) 是 不 变 的 。 与 2SLS 趋 于 OLS 偏 倚 不 同 ,这 些 佑 计量 具有 趋 于 0 的 有 限 样 
本 偏 倍 。 不 过 ,人 因为 仅 有 一 半 样 本 用 于 最 后 阶段 , 故 损失 了 相当 多 的 有 效 性 。 

刀 切 法 工具 变量 

实施 这 种 估计 量 的 一 个 更 有 效 变形 ,类 似 于 仅仅 通过 逐一 观测 值 来 生成 工具 
的 方法 。 

设 下 标 ( 一 让 表示 去 掉 第 i 个 观测 值 的 运算 (leave-one-out operation) 。 于 是， 
对 第 i 个 观测 值 来 说 ,我 们 从 X_; 对 Z-; 的 回归 中 获得 估计 值 于 ,并 用 作 工 具 
x 一 ZL;。 当 重复 N 次 时 ,就 得 出 第 i 行为 交 的 工具 向 量 , 将 其 记 为 X._，。 这 就 得 
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出 刀 切 法 IV 估计 量 (jackknife IV estimator): 
Biv 一 (X: — 1) 区 ) X_, y2 


这 种 估计 量 最 初 是 由 菲利普 斯 和 黑 尔 (Phillips and Hale, 1977) 提 出 的 。 安 格 
里 斯 特 . 英 人 斯 和 克 鲁 格 (Angrist，Imbens and Krueger, 1999) 以 及 布 洛 姆 村 斯 特 
和 达尔 伯 格 (Blomquist and Dahlberg，1999) 称 它 为 刀 切 法 估计 量 , 因 为 刀 切 法 ( 参 
见 11. 5. 5 辣 ) 是 天 于 偶 倚 减 小 的 省 略 一 个 的 运算 方法 。 获 得 第 N 个 刀 切 法 预测 
值 x 的 计算 要 点 是 ,利用 11. 5. 5 节 给 出 的 递归 公式 。 最 近 两 篇 论文 中 给 出 的 蒙特 
卡 罗 证 据 表 明 ,出 现 侦 倚 减 小 但 其 方差 增 大 的 混合 情况 。 因 此 ,就 均 方 误差 而 言 ， 
刀 切 法 形式 并 不 好 于 常规 形式 。 比 较 早 的 菲利普 斯 和 黑 尔 (Phillips and Hale， 
1977) 论 文 阐述 的 分 析 结 果 是 ,满足 7 二 2(K 十 1) 的 适度 过 度 识别 模型 刀 切 法 工具 
变量 (JIV) 估 计量 的 有 限 样本 偏 傈 小 于 2SLS 的 有 限 样 本 偏 们 。 还 可 参见 哈恩 、 豪 
斯 曼 和 库 斯 垢 纳 (Hahn,，, Hausman and Kuersteiner，2001)， 

独立 加 权 2SLS 

与 分 裂 样本 工具 变量 有 关 的 方法 ,是 6. 3. 5 节 中 奥 尔 顿 吉 和 西 格 尔 (Altonji 
and Segal，1996) 的 独立 加 权 广 义 矩 方法 佑 计量 。 把 样本 分 裂 成 C 个 组 ,并 对 线性 
工具 变量 专门 妍 究 , 就 会 产生 独立 的 加 权 工 具 变 量 佑 计量 (independently weighted 


TIV estimator ) : 
Brwv 一 去 PHY ZS TZ, Xe 上 1X, ,Za Si Dy, 


其 中 ,S,_, 为 利用 式 (6. 40) 定 义 的 S$ 计 算出 来 ,只 是 去 掉 来 自 第 g 组 的 观测 值 。 在 
面板 数据 的 应 用 中 , 齐 利 亚 克 (Ziliak，1997) 发 现 , 实 施 独立 加 权 工 具 变 量 佑 计量， 
比 实施 无 偏 分 裂 样 本 工具 变量 估计 量 更 好 一 些 。 


6.5 非 线性 工具 变量 


非 线 性 工具 变量 方法 , 即 由 雨 宫 (Amemiva，1974) 提 出 的 著名 非 线 性 2SLS， 
允许 在 NLS 估计 量 为 非 一 致 的 一 -一 因为 回归 元 与 误差 项 相关 一 一 情况 下 ,得 到 非 
线性 回归 模型 的 一 至 估计 值 。 我 们 将 这 些 方法 阅 述 为 对 线性 模型 广义 矩 方法 的 直 
接 推 广 。 

与 线性 情况 不 同 , 该 佰 计量 没有 显 式 公 式 , 但 其 新 近 分 布 可 作为 6. 3 节 结 果 的 
一 种 特殊 情况 而 获得 。 本 市 阐述 单方 程 结 果 , 而 系统 结果 将 在 6. 10. 4 节 给 出 。 一 
个 极其 重要 的 结果 是 ,线性 模型 泰 尔 2SLS 方法 自然 推广 到 非 线 性 模型 ,能 产生 非 
一 致 参数 估计 值 ( 参 见 6. 5. 4 节 )。 不 过 ,此 时 应 使 用 广义 矩 方法 。 

当 因 变量 模型 是 线性 模型 ,但 起 因 于 因 变 量 的 特定 性 质 , 内 生 回 归 元 的 简化 式 
是 非 线 性 的 时 候 , 就 会 产生 一 种 可 供 选 择 的 非 线 性 。 例 如 ,内 生 回 归 元 可 以 是 计数 
的 或 二 值 结 果 。 在 那 种 情况 下 ,仍然 可 应 用 前 一 市 的 线性 方法 。 一 种 方法 是 ,忽略 
内 生 回 归 元 的 特殊 性 质 , 同 时 实施 常规 线性 2SLS 或 最 优 广 义 拖 方法 。 或 者 ,可 通 
过 适当 的 非 线 性 回归 ,获得 内 生 回 归 元 拟 合 值 ,比如 ,如 果 内 生 回归 元 是 计数 的 , 那 
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么 对 所 有 工具 进行 泊 松 回归 ,然后 遵循 巴 斯 曼 方法 ,利用 这 个 拟 合 值 作为 计数 工 
具 , 实 施 常规 线性 工具 变量 。 尽 管 这 两 种 估计 量 服从 不 同 的 渐 近 分 布 , 但 它们 都 是 
一 致 的 。 较 简单 的 第 一 种 方法 是 一 种 通常 方法 。 


6. 5.1 带 工 具 的 非 线 性 三 义 算 万 法 


考察 相当 一 般 的 非 线 性 回归 模型 ,其 中 ,误差 项 可 能 是 可 加 的 或 非 可 加 的 ( 参 
见 6.2.2 有 全 )。 因 而 ,有 : 


ui—r(Yyi, Ki, ) (6. 52) 
其 中 , 带 有 可 加 误差 的 非 线 性 模型 是 一 种 特殊 情况 : : 
uC—y— g(xX,0) (6. 53) 


其 中 ,g(*) 是 一 个 设 定 函 数 。 若 ELui 1x j] 隆 0, 则 6.2.2 节 给 出 的 估计 量 是 非 一 致 的 。 
假定 存在 ~ 个 工具 z, 其 中 之 天 ,满足 : 


El xz 一 0 《6. 54) 


这 与 线性 情况 下 的 条 件 矩 条 件 是 一 样 的 ? 只 是 Ui; —r(Y;, X , 3) ,而 不 是 4 一 —x;f o 
非 线性 广义 矩 方 法 估计 量 
由 期 望 迭代 定律 , 式 (6. 54) 变 为 ， 


Elzu; |=0 (6. 55) 


广义 矩 方 法 估计 量 就 是 对 相应 样本 和 矩 条 件 的 二 次 形式 求 极 小 值 。 

若 用 矩阵 记号 , 设 u 表示 NX1 维 误差 向 量 ,其 第 i 个 元 素 u; 已 由 式 (6. 52) 给 
出 ;并 设 ZZ 表示 N Xr 阶 工具 和 矩阵 ,其 第 i 行为 zz。 于 是 ,2;ziu; 二 Zu 而 非 线 性 工 
具 变 量 模 型 的 广义 矩 方法 估计 量 (GMM estimator in the nonlinear IV model) (mm 
极 小 化 下 式 : 


Qu(G) 一 (入 uawZ)wu( 广 Zu] (6. 56 ) 
其 中 ,Ww 表示 > 汉 r 阶 加 权 和 矩阵 。 与 线性 广义 矩 方法 不 同 , 一 阶 条 件 得 不 到 Bomwm 
的 闭 形式 解 。 
非 线 性 广义 矩 方法 估计 量 的 分 布 
对 于 式 (6. 54) 给 出 的 8 ,广义 矩 方法 估计 量 是 一 致 的 ,并 且 其 潮 近 正 态 分 布 具 
有 下 述 估计 渐 近 方差 : 
VE Anw]=NIDZwWwZ'D]-ILDZWNSWNZD]LDZWANZD] : (6.57) 


这 里 利用 源 于 6. 3. 3 节 满 足 h(.) 一 zu 的 结果 ,其 中 ,S$ 由 下 面 内 容 给 出 ,而 D 表示 
由 下 式 定 义 的 误差 项 导数 的 NX 上 阶 矩 阵 : 


D 一 (6. 58) 
9G | Bw 
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(6. 57) 中 消 掉 的 负 号 时 ,了 D 的 第 i 行 就 是 9g (x;,B)/9B' |;。 
对 独立 异 方差 误差 来 说 ,有 : 


S 一 NT > nz (6. 59) 


这 类 似 于 线性 情况 ? 只 是 现在 —r( yi,X, 8) 或 Yi — g(xX, ey o 

因此 , 非 线 性 模型 广义 矩 方法 估计 量 的 渐 近 方差 与 由 式 (6. 39) 给 出 的 线性 情 
况 是 相同 的 ,变化 仅 为 ,回归 元 矩阵 X 由 导数 au/2EG 15 所 代替 。 这 与 5. 8 节 推 导 从 
线性 到 非 线 性 最 小 二 乘法 的 变化 完全 一 样 。 由 类 似 于 线性 工具 变量 推理 知 , 用 于 
识别 的 秩 条 件 (rank condition) 是 ,plim N -Zau/aG la 的 秩 为 天 ,同时 比较 弱 的 
阶 条 件 (order condition) 是 rr 宇 K，。 


6.5.2 各 种 不 同 非 线 性 广义 人 簿 方法 信 计 旦 

不 同 于 选择 加 权 和 矩阵 的 关于 广义 矩 方 法 佑 计量 的 两 种 关键 的 专门 妍 究 方 法 分 
别 是 , 设 Wn 二 S$! 的 最 优 广 义 矩 方法 ,以 及 设 Wn 一 (ZZ) 1! 的 非 线性 两 阶段 最 小 
. 二 乘法 (NIL2SLS)。 表 6. 3 概括 假定 独立 异 方差 误差 时 ,这 些 佑 计量 及 其 有 关 的 方 
差 窍 阵 ,同时 给 出 一 般 Ww 的 结果 ,以 及 恰好 识别 模型 的 非 线 性 工具 变量 结果 ， 


表 6.3 非 线性 工具 变量 模型 的 广义 矩 方法 估计 量 及 其 渐 近 方差 * 


个 计量 定义 与 渐 近 方差 
GMM Qu (PB) =u ZWNZ 
(一 般 Wn) YL BJ]= NIDZWNZ DI LD ZWNvSWNZ DILD ZWNZ DJ] 
最 优 GMM Qoomm (B)=u ZS Zu 
(Wn =S-!) Vv[ 68]=N[DZS-'ZD]! 
NL2SLS Quzss (BO) = TTD Zu 
(WNv 一 [NIZ'Z]-) V[ 6]=NIDZCZ'Z)-ZD]-[TDZCZZD-ISCZZD TD 


xfTBZ(CZZ)-IZ 了 D]- 
假定 同方 差 误差 , 则 V[ Bj]==s [DZCZTDD 1'ZD] 一 
NLIYV Br 求解 Zu 二 0 


(恰好 识别 ) VL B81]=N(ZD) -SD 2) 





。 方程 是 具有 在 式 (6. 53) 或 式 (6. 52) 中 定义 的 误差 与 工具 忆 的 非 线性 回归 模型 。D 表示 误差 向 量 对 
于 G8 的 导数 在 后 处 的 计算 值 ,而 且 对 于 具有 可 加 误差 的 模型 , 则 简化 为 条 件 均值 函数 关于 BG “的 导数 在 局 处 
的 计算 值 。$ 已 由 式 (6. 59) 定 义 。 除 对 给 定 的 NL2SLS 佑 计量 进行 同方 差 误差 简化 之 外 ,所 有 方差 矩阵 估计 
值 都 假定 误差 对 不 同 观测 值 来 说 是 独立 且 异 方差 的 。 


非 线 性 工具 变量 

在 恰好 识别 的 情况 下 ,人 们 可 直接 使 用 对 应 于 式 (6. 55) 的 样本 矩 条 件 。 这 怠 
得 出 非 线 性 工具 变量 模型 的 抢 方 法 (method of moment estimator in the nonlinear 
IV model) Burv , 它 是 
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mw 


| 加 
六 之 /zi 本 (6. 60) 


的 解 , 或 等 价 地 ,也 是 Z u=0 解 ,其 渐 近 方差 矩阵 已 由 表 6. 3 给 出 。 

经 芝 运 用 迭代 法 计算 非 线性 佑 计量 ,该 迭代 法 可 获得 目标 函数 最 优 值 , 而 不 是 
求解 非 线 性 估计 方程 组 。 对 恰好 识别 来 说 , Guuv 可 被 计算 为 极 小 化 式 (6. 56) 的 广 
义 矩 方法 佑 计量 ,该 式 具 有 对 加 权 怎 阵 的 任意 选择 ,常常 是 Ww 一 1, 从 而 得 出 相同 
的 估计 值 。 

最 优 非 线性 厂 义 矩 方法 

对 过 度 识别 模型 来 说 ,最 优 广义 矩 方法 估计 量 使 用 加 权 和 矩阵 Wn 二 S$S“'。 因 此 ， 
非 线 性 工具 变量 模型 的 最 优 广 义 宅 方法 估计 量 (optimal GMM estimator in the 
nonlinear IV model) Bam 极 小 化 下 式 : 


QN (8)= (NaZ)S- (六 Zu (6. 61) 


由 表 6. 3 给 出 的 估计 渐 近 方差 具有 相对 简单 的 形式 ,这 是 因为 当 Ww 二 S71! 时 , 式 
(6. 57) 得 以 简化 。 

如 同 线性 情况 一 样 , 当 误 差 是 异 方差 时 ,最 优 广义 矩 方法 估计 量 是 两 步 估 计 
量 。 在 计算 估计 方差 时 ,正如 表 6. 3 所 述 , 人 们 能 使 用 S, 不 过 一 种 更 普遍 的 方法 是 
使 用 佑 计量 ,比如 说 , 它 也 可 利用 式 (6. 59) 进 行 计 算 , 只 是 在 计算 残 差 时 ,要 在 最 
优 广义 矩 方法 估计 量 处 而 不 是 式 (6. 61) 中 用 于 建立 $ 的 第 一 步 估 计 值 处 加 以 计算 。 

非 线性 2SLS 

具有 工具 广义 窍 方法 值 计量 的 一 种 特殊 情况 是 , 设 式 (6. 56) 中 Ww = 
(Ni7 7Z7)-:。 这 就 得 出 非 线 性 两 阶段 最 小 二 乘法 (nonlinear two-stage least- 
squares) 估 计量 /hzsis , 它 极 小 化 下 式 : 


QW = LZD I (6. 62) 


该 估计 量 因 作为 最 优 广义 矩 方法 估计 量 而 引 人 注 目 , 若 误差 是 同方 差 的 , 则 $= 
ssZZ/N, 其 中 ,s? 表示 常 值 VLiu1z] 的 一 致 估计 值 ,从 而 SS"! 是 (ZZ) 1! 的 倍数 。 

对 同方 差 误差 来 说 ,该 估计 量具 有 较 简 单 的 估计 渐 近 方差 ,如 表 6. 3 所 示 , 这 
是 一 些 教 科 书 经 常 给 出 的 结果 。 不 过 ,在 微观 经 济 计量 学 的 应 用 中 ,一 种 普遍 的 做 
法 是 允许 异 方差 误差 ,并 使 用 由 表 6. 3 给 出 的 更 复杂 的 稳健 估计 值 。 

由 雨 官 (Amermivya，1974) 提 出 的 NL2SLS 估计 量 , 是 广义 矩 方 法 的 重要 前 身 。 
该 估计 量 提出 的 动机 类 似 于 6. 4. 3 节 给 出 2SLS 的 第 一 个 动机 。 因 而 ,用 工具 乙 
左 乘 模型 误差 u, 得 到 Z u, 其 中 ,由 于 E[ulZ] 一 0, 故 ELZ wj 二 0。 于 是 ,实施 非 线 
性 GLS 回归 。 假 定 同 方差 误差 ,这 将 对 下 式 求 极 小 值 : 


QNC9) 一 ZLcZZ]-IZau 


因为 VIaulZ]=o2I 芍 含 VLZulZi= 天 7ZZ。 此 目标 函数 刚好 是 式 (6. 62) 的 一 个 数 
量 倍数 。 
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条 尔 对 线性 2SLS 两 阶段 的 解释 ,并 不 总 是 被 推广 到 非 线 性 模型 上 (参见 
6. 5. 4 节 )。 另 外 ,很 明显 ,NL2SLS 是 一 个 一 步 估计 量 。 雨 宫 选 用 NI.2SLS 这 个 
名 字 ,是 因为 它 允 许 利用 工具 变量 进行 一 致 估计 ,就 如 同 线性 情况 一 样 。 该 名 称 不 
应 按 字面 意义 理解 ,表述 比较 清楚 的 术语 是 非 线性 工具 变量 Cnonlinear IV ) 或 非 线 
性 广义 工具 变量 估计 (Cnoniinear generalized TV estimation ) 。 

非 线性 模型 工具 选择 

前 面 的 佑 计量 都 假定 诸如 E[u1zj]= 二 0 的 工具 存在 , 且 建 立 在 无 条 件 矩 条 件 
ELzuj 二 0 的 基础 上 , 则 估计 是 最 佳 的 。 

”考察 具有 可 加 误差 的 非 线性 模型 ,从 而 v 一 > 一 g(Cx,G)。 为 了 使 工具 适宜 , 工 
具 必 须 与 回归 元 x 是 相关 的 ;不 过 ,为 了 使 工具 有 效 , 它 不 能 直接 作为 y 的 因果 变 
景 。 由 式 (6. 57) 给 出 的 方差 矩阵 可 知 , 该 工具 确实 与 有 共有 0g/9B8 的 z 相关 ,而 不 是 
与 起 作用 的 x 相关 ,以 此 确保 DZ 充分 大 。 像 4. 9 节 研 究 的 线性 情况 一 样 , 弱 工具 
关注 的 下 是 这 里 所 还 的 有 关内 容 。 

定 匡 | xz 一 0, 已 知 可 能 的 异 方 益 性 ,估计 建立 在 那 种 可 能 不 使 ELzz jj 一 0 

0 最 优 二 条 从 是 而 不 过 ,由 6.3.7 节 知 ,最 优 征 条 件 需要 难以 做 出 的 其 他 息 假 
设 , 因 此 ,一 种 标准 做 法 是 如 同 这 里 所 做 的 ,使 用 E[zuj]==0。 

一 种 可 供 选 择 的 控制 异 方差 性 方法 是 ,将 广义 矩 方法 估计 建立 在 定义 成 接近 
于 同方 差 的 误差 项 的 基础 上 上。 例如 ,就 计数 数据 而 言 ,不 是 使 用 4 二 y 一 exp(x G )， 
而 是 运用 标准 化 的 误差 uw" = 二 wu/ Vexp(xB) (参见 6.2.2 节 )。 然 而 ,要 注意 到 ， 
ELw 1z] 二 0 与 ELulzj 二 0 是 不 同 假设 。 

通常 , 仅 有 x 的 一 个 元 素 与 4 相关。 那么, 如同 线 性 情况 一 样 ,把 外 生 元 素 用 
作 它 们 自身 的 工具 ,并 且 其 挑战 是 找 出 与 不 相关 的 另外 工具 。 一 些 非 线性 应 用 
源 于 如 同 6. 2. 7 节 的 正式 经 济 模型 ,在 那 种 情况 下 ,可 利用 信息 集 的 许多 子 元 素 作 
为 工具 。 


6. 5.3 这 梭 工具 变量 例子 


具有 外 生 回 归 元 的 泊 松 回归 模型 , 设 定 ELy|xj 二 exp(x B8)。 可 将 此 看 作 具 有 
可 加 误差 4 二 y 一 exp(x GD) 的 模型 。 若 回归 元 是 内 生 的 , 则 ELu|xj 关 0, 而 且 泊 松 
MILE 将 是 不 一 致 的 。 一 致 估计 要 假定 满足 FLzjzj=0 的 工具 z 存在 ,或 者 等 价 地 : 


ELy 一 exp(CxX G)1z] 一 0 
可 直接 应 用 前 面 的 一 些 结果 。 其 目标 函数 是 : 
Quv(6) = [ND zu | Wry| NT > za | 
其 中 ,wu 二 yy; 一 exp(xiB)。 于 是 ,其 一 阶 条 件 是 、 
| 2) expXIBOxiz’ [Wn| >) zy; — exp(xiB)) |= 0 


渐 近 分 布 已 由 表 6. 3 给 出 ,满足 DZ= 2， eexi2f ,因为 9g/9B 二 exp(x'B)x, 并 且 S 
已 由 式 (6. 39) 定 义 , 去 二 yy 一 exp(x;B)。 最 优 广义 矩 方法 估计 量 与 NL2SLS 估计 
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量 在 加 权 和 矩阵 是 $ ! 还 是 (N -1Z'Z) -1! 的 选取 方面 各 不 相同 ,其 中 ,ZZ 一 35,z,z/。 

一 种 可 供 选 择 的 一 致 佑 计量 由 巴 斯 曼 方法 得 出 。 首 先 ,已 知 及 个 预测 值 区 二 
IIz; ,通过 OLS 估计 出 简化 式 x; 二 ITz; 十 vi;。 其 次 ,通过 如 同 式 (6. 60) 的 非 线 性 工 
具 变 量 , 使 用 %; 而 不 是 z 进行 估计 。 已 知 王 的 OLS 公式 ,这 个 估计 量 是 下 式 的 解 ， 


>， zi | [2 zy exp(Cx4G)) | 一 0 


该 佑 计量 不 同 于 NL2SLS, 原 因 存 于 左边 第 一 项 不 同 。 对 于 线性 模型 来 说 ,推广 泰 
尔 方法 的 潜在 问题 将 在 下 一 节 详 述 。 : 
除 泊 松 回归 之 外 ,类 似 问 题 还 会 出 现在 非 线 性 模型 璧 如 二 值 数 据 模型 中 ，。 


0.5.4 非 线 米 模 型 两 阶段 估计 


在 非 线 性 模型 中 ,对 线性 2SLS 进行 的 通常 解释 将 会 失效 。 因 此 ,假定 y 具有 
均值 g(x,B), 并 存在 回归 元 x 的 工具 z。 那 么 ,为 了 获得 拟 合 值 ,如 同 现在 所 要 
阐明 的 ,在 y 对 g(xX,B) 进 行 NLS 回归 之 后 ,要 实施 z 对 工具 z 的 OLS 回归 ,这 就 
得 出 8 的 非 一 致 参数 估计 值 。 不 过 , 人 们 需要 使 用 前 一 节 阐 述 的 NL2SLS 佑 
计量 。 

考察 下 述 簿 单 模型 , 它 是 建立 在 南宫 (Amemiya，1984) 所 曾 述 模型 的 基础 上 ， 
也 就 是 说 ,尽管 模型 关于 参数 是 线性 的 ,但 关于 变量 则 是 非 线 性 的 。 设 : 


yy 一 Rz2 十 z& (6. 63) 


XTX 一 AZ 十 名 


其 中 , 零 均 值 误差 zx 与 v 是 相关 的 。 回归 元 x? 是 内 生 的 ,这 是 因为 ,x 是 v 的 孙 
数 , 且 由 假设 可 知 ,u 与 v 是 相关 的 。 因 此 ,8 的 OLS 佑 计量 是 非 一 致 的 。 假 如 > 
尽 由 模型 中 的 其 他 随机 变量 独立 生成 的 , 则 z 是 一 个 有 效 工具 ,因为 显然 它 与 业 独 
了 ,但 与 过 相关 。 

工具 变量 估计 量 是 pv 一 (2izir?) 12 ziyr。 这 可 以 通过 运用 工具 z, 进行 常 
规 的 y 对 zx? 的 工具 变量 回归 来 实施 。 正 如 人 们 所 料 , 经 过 一 些 代 数 运 算 之 后 ,Biv 
等 于 式 (6. 60) 所 定义 的 非 线 性 工具 变量 估计 量 。 

然而 ,假设 我 们 进行 下 述 两 阶段 最 小 二 乘法 估计 。 首 先 ,为 了 得 到 之 一 元 zx, 要 
实施 工 对 z 回归 ,然后 实施 y 对 7X? 回归。 于 是 ,Bzss 二 (2) 1 4?y;, 其 中 ， 
表示 由 x 对 z 的 OLS 回归 所 得 到 的 预测 值 的 平方 。 这 就 得 出 非 一 致 估计 量 。 
对 6. 4. 3 节 的 线性 情况 加 以 改进 ,我 们 有 : 

yi 一 ri tu 
一 BF; 十 zw 

其 中 ,vw 一 Bx; 一 车) 十 u;。y; 对 的 OLS 回归 关于 68 是 非 一 致 的 ,因为 回归 元 
与 综合 误差 项 w 是 渐 近 相关 的 。 正 式 地 讲 , 利 用 plim 站 二 x 并 进行 一 些 代数 运算 ， 
尽管 zx; 与 v; 独立 ,但 是 ,xi 一 富 ) 王 (xzi 十 01) 一 (Kz;) ?二 zz 十 2xzsv ;十 一 这 
上 纺 含 着 plim N12 (zi 一 和 ) 二 plim N72 Ar:zxiv 了 关 0。 因 此 ,plim N 1X 
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2 fi 一 blim N 27 28 一 他 7 天 0。 
不 过 ,作为 一 致 估计 的 一 种 变形 是 ,在 第 一 阶段 ,要 求 x* 对 z 回归 而 不 是 x 对 
z 回归 ,并 且 在 第 二 阶段 ,使 用 预测 值 攻关 (3)*。 可 以 证 明 , 这 等 于 Bv。 这 里 需要 
zx? 的 工具 成 为 zx? 的 拟 合 值 , 而 不 是 zx 拟 合 值 的 平方 。 
这 个 例子 可 被 推广 到 其 他 非 线 性 模型 ,其 中 , 非 线性 是 仅仅 关于 回归 元 的 , 因 
而 有 : 
y=g(x) Bu 


其 中 ,g(x) 表 示 x 的 非 线 性 涌 数 。 一 -个 普遍 的 例子 就 是 运用 只 与 自然 对 数 。 假 定 
E[u|z] 二 0。 为 了 得 到 预测 什 六 ,可 通过 x 对 z 回归 而 获得 非 一 致 估计 值 ,然后 求 y 
对 gC 广 ) 的 回归 。 为 了 得 到 预测 值 g(x) ,可 通过 gCx) 对 z 回归 获得 一 致 估计 值 , 然 
后 第 二 阶段 要 求 y 对 多 x) 的 回归 。 我 们 使 用 (Xx) 而 不 是 gC 交 ) 作 为 g(x) 的 工具 。 
于 是 ,即使 第 二 阶段 回归 给 出 无 效 标准 误差 ,但 是 ,OLS 将 使 用 残 差 4 一 y 一 g(x) 6B 
而 不 是 2 一 y 一 8g(x) 3。 一 种 最 佳 方法 是 ,直接 使 用 广义 矩 方法 或 NL2SLS 命令 。 

更 一 般 地 讲 , 模 型 可 能 关于 变量 和 参数 都 是 非 线 性 的 。 考 虑 具有 可 加 座 差 的 
单 指标 模型 ,因而 有 : 

y 一 gCXKCG) 十 z 


为 了 获得 预测 值 ,通过 x 对 z 的 OLS, 得 到 非 一 致 估计 值 ,然后 要 求 y 对 g (XB) 
的 NLS 回归 。 这 里 需要 使 用 广义 和 矩 方法 ,或 者 使 用 NL2SLS。 从 本 质 上 看 ,为 了 
一 致 性 ,我 们 需要 g(x 3 ) ,而 不 是 g( 文 9)。 

NL2SLS 例子 

我 们 考察 具有 简单 非 线 性 模型 的 NL2SLS 估计 ,该 非 线 性 由 内 生变 量 的 平方 
作为 回归 元 引起 ,如 同 前 一 节 一 样 。 

由 于 数据 生成 过 程 是 式 (6. 63) ,所 以 y 二 Bx 十 u 且 x 二 xz 十 v, 其 中 ,对 于 所 有 
观测 值 ,8 二 1,x 二 1,z 二 1, 同 时 (u,v) 服 从 联合 正 态 分 布 , 其 均值 为 0 方差 为 1, 量 
相关 系数 为 0.8。 抽 取 的 样本 量 为 200。 其 结果 如 表 6. 4 所 示 。 


表 6.4 非 线 性 两 阶段 最 小 二 乘法 例子 


佑 计量 
变量 OLS NL2SLS 两 阶段 
x 1. 189 0. 969 1. 642 
(0. 025) (0. 041) (0. 172) 
R: 0. 88 0. 84 0. 80 


。 下 一 节 给 出 的 数据 生成 过 程 具有 等 于 1 的 实际 参数 。 该 样本 量 N 一 200。 


这 里 的 非 线 性 是 相当 弱 的 ,原因 在 于 ,是 x 的 平方 而 不 是 x 作为 回归 元 。 所 关 
注 的 内 容 是 对 x? 系数 8 的 估计 。OLS 估计 量 是 非 一 致 的 ,而 NL2SLS 却 是 一 致 
的 。 两 阶段 方法 , 即 第 一 阶段 要 求 x 对 z 的 OLS 回归 ,进而 得 出 地 ,然后 求 y 对 
( )? 的 OLS 回归 ,这 就 得 出 下 面 估计 值 ,该 值 偏离 8 一 1 的 真实 值 超过 了 两 个 标 
准 误差 。 模 拟 研究 表明 , 拟 合 优 度 有 些 损失 , 且 预 测 值 具有 较 大 的 标准 误差 ,可 是 
R? 却 较 小 ,这 一 点 类 似 于 线性 工具 变量 。 
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6.6 时序 两 步 m 估计 


时 序 两 步 估计 方法 最 终 关 注 的 参数 估计 值 是 建立 在 未 知 参数 最 初 估计 的 基础 
上 。 当 误差 具有 条 件 方差 exp(z 7 ) 时 ,一 个 例子 就 是 可 行 GLS。 已 知 y 的 估计 值 了 ， 
FGLS 估 计量 户 是 2》) (y 一 xD)Vexp(z3) 的 解 。 第 二 个 例子 是 将 在 16. 10. 2 
玉 给 出 的 赫 克 受 两 步 估 计量 。 

这 些 估计 量 深 受 人 们 喜爱 ,因为 它们 能 提供 一 种 相对 简单 的 方法 来 获得 一 致 
参数 估计 值 。 不 过 ,为 了 实施 有 效 统计 推断 ,必须 对 第 二 步 估 计量 的 渐 近 方差 进行 
册 整 ,以 便 考虑 到 第 一 步 估 计 。 我 们 曾 述 特殊 情况 的 一 些 结果 , 即 第 一 步 佑 计量 的 
估计 方程 对 样本 平均 值 设 定 为 0, 而 第 二 步 估 计量 的 估计 方程 也 将 样本 平均 值 设 
定 为 0, 这 正 是 m 估 计量 、 短 方法 以 及 估计 方程 估计 量 的 情况 。 

把 参数 问 量 9 分 割 成 01 与 0; 两 部 分 ,而 最 终 的 关注 内 容 是 9 。 该 模型 可 首 
先 求解 2 ,hi;(6,) 二 0 来 获得 人 ,然后 已 知 全 ,求解 N''》) ,hi(61,6.) 一 0， 
从 而 获得 6; 。 通 常 , 给 定 估计 0, 时 9; 的 分 布 ,不 同 于 当 01 已 知 时 2 的 分 布 ,而 且 
前 者 比 后 者 更 复 森 。 除 在 本 市 末尾 给 出 的 某 些 特殊 情况 以 外 ,如 果 不 能 考虑 这 种 
复杂 情况 ,那么 统计 推断 就 是 无 效 的 。 

下 述 推 导 由 纽 书 (Newey，1984) 给 出 ,而 墨 菲 和 托 佩 尔 (Murphy and Topel， 
1985) 以 及 帕 甘 (Pagan,1986) 也 得 到 了 相似 结果 。 两 步 佑 计量 能 重新 写成 一 步 估 
计量 ,其 中 ,(0 ，6: ) 联 合 求解 方程 ， 


~N 
N > hw,0)=0 (6. 64) 
;一 1 
a 
N 1 > hz Cw;, 0) ,0, ) — 0 
1 一 1 
若 定义 9=(9， 6 ) 且 生 二 Ch his) ,将 该 方程 写成 : 
N- > how,9) 一 0 
fi 一 ] 


在 这 种 背景 下 ,假定 dim(h ) 一 dim(CO ) 且 dim (hz) 一 dim(0;), 则 估计 方程 个 数 等 
于 参数 个 数 。 那 么 , 式 (6. 64) 是 估计 方程 佑 计量 或 者 甜 方法 估计 量 ，。 

一 致 性 要 求 plim N 71; h(w;,0,) 一 0, 其 中 ,0 一 [91,。，0%,]。 如 果 在 第 一 步 
中 ,0; 关于 bo 是 一 致 的 ,并 且 如 果 已 知 91 (不 是 由 9 估计 的 ) 时 的 2: 第 二 步 估 计 
可 以 产生 86w 的 一 致 估计 值 , 则 这 个 条 件 应 该 得 以 满足 。 在 和 矩 方法 框架 下 ,要 求 
ELhi(01) 二 0 且 ELhy;(01,0;)j] 二 0。 这 里 假定 可 以 建立 一 致 性 。 

为 了 得 到 渐 近 分 布 ,我们 应 用 一 般 性 结果 , 即 : 


VCG6 一 9) 全 NI0,GriS (G7!) 
其 中 ,Gu 与 S$ 已 由 命题 6.1 定义 。 以 类 似 于 分 割 8 与 h; 的 方式 ,分割 G, 与 $6。 
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是 古 和 机 汪 和 加 加 加 


于 是 ,利用 3h，， (0) /90, 一 0, 得 出 : 


N rah;;/90’ 0 G 0 
G, = lim 直 DE| 机 ,=| ' | 
N i 二 ] dh; /90) ah /50， (G21 (722 


这 是 因为 由 式 (6. 64) 可 知 ;hi, (09) 不 是 0; 的 了 消 数 ， 由 于 (yo .G1 和 和 G2 都 是 方 阵 , 有 : 


| 可 | 
G, = 

一 G2 (G21 Gi G2 
显然 9 有 * 


S 一 lim DE mm eho | 中 | 
NE Lh2zhi， hzh2 S21 S22 


8, 的 渐 近 方差 是 8 方差 矩阵 的 一 个 (2，2) 子 和 矩阵 。 经 过 一 些 代 表 运 算 后 ,得 到 : 


-1 一 1 和 7/ 
vi-Gal +GalG SnG | -1 


| i (6. 65) 
G0 S12 — N21 G1 G2 


通常 计算 机 输出 会 产生 不 正确 的 标准 误差 ,同时 低估 了 真实 标准 误差 ,这 是 因 
为 假定 VL8; ] 为 Gzz'SwzGzz ,可 以 证 明 , 它 小 于 式 (6. 65) 给 出 的 真实 方差 。 

在 EL9hz;(0)/90;j」 一 0 的 特殊 情况 下 ,第 一 步 估计 所 引起 的 第 二 步 的 额外 变 
异性 ,是 因为 Gz 二 0 与 式 (6. 65) 的 V[6, ] 会 简化 成 G2! Sz Gy 。 

Gz 二 0 的 一 个 著名 例子 是 FGLS。 那 么 ,对 异 方差 性 来 说 ,有 : 


XX; (yy; —x,0, ) 


hz (0) 一 ol(xX.,0,) 


其 中 ,VLy, | xi 一 co C(x, ,01) , 并且: 


it 9 i 
E[Loh;; (0) /301]=E| 一 xs 人 和 ee 0 | 


上 式 等 于 0, 因为 E[y;|x] 二 x/6;。 进 一 步 地 ,对 FGLS 来 说 ,0; 的 一 致 性 并 不 要 求 
0 是 一 致 的 ,因为 El| h 0) | 一 0 只 需要 ELy， x; | =x;0; ,而 这 并 不 依赖 于 fi 。 

Gz 一 0 的 第 二 个 例子 是 具有 分 块 对 角 和 矩阵 的 ML 估计 ,因而 EL3:L (9)/30136 | 二 
0。 这 是 正 态 性 条 件 下 回归 例子 的 情况 ,其 中 ,6 :表示 方差 参数 ,而 0: 表示 回归 
参数 。 

不 过 ,在 其 他 一 些 例子 中 ,Gz 天 0, 且 需要 使 用 更 繁琐 的 表达 式 (6. 65)。 对 于 
某 些 标准 的 两 步 估 计量 来 说 ,譬如 由 16. 5. 4 节 给 出 的 著名 的 样本 选择 模型 赫 克 曼 
两 步 估 计量 ,都 是 通过 计算 机 软件 包 自 动 实施 。 否 则 ,需要 对 V[6:] 进 行 手工 计 
算 。 其 许多 元 素 源 自 前 面 的 估计 。 特 别 地 ,Gi'SuGi 是 思 的 稳健 方差 矩阵 ,而 
Gx! SzzGzz! 是 6: 的 稳健 方差 矩阵 估计 值 ,这 错误 地 忽略 了 b 的 估计 误差 。 对 于 不 
同 ; 的 数据 独立 而 言 ,S 子 和 矩阵 的 子 成 分 可 由 $j; 王 NTI Zhihe ,j ,8 二 1,2 来 一 致 
估计 。 这 就 导致 了 对 Gz 二 N71! ,9hz;/901 1; 进 行 计算 的 重要 挑战 。 
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假定 使 用 广 闵 矩 方法 , 则 一 个 备 受 推荐 的 比较 简单 的 方法 是 求 自助 标准 误差 
(参见 10. 2. 5 节 ), 或 者 直接 联合 估计 组 合 模 型 (6. 64) 中 的 01 与 0;。 

这 些 较 简单 的 方法 还 能 用 于 时 序 佑 计量 ,它们 是 广义 矩 方法 估计 量 而 不 是 m 
佑 计量 。 于 是 ,把 这 两 种 估计 量 结合 起 来 ,将 会 产生 比 式 (6. 64) 更 为 复杂 的 一 系列 
集合 ,从 而 不 能 再 次 得 到 式 (6. 65)。 不 过 ,人 们 仍 能 进行 自助 法 或 者 联合 估计 ,而 
不 是 采用 时 序 形式 。 


6. 7 最 小 距离 估计 


最 小 距离 估计 提供 了 一 种 估计 结构 参数 9 的 方法 ,这 里 ,9 是 已 知 的 一 致 估 
计 值 大 时 ,对 简化 式 参 数 x 的 设 定 肾 数 。 

一 个 标准 参考 文献 是 弗格森 (Ferguson，1958)。 罗 膳 们 格 (Rothenberg， 
1973) 将 这 一 方法 应 用 到 线性 联 立 方程 模型 上 ,尽管 由 6.9.6 节 给 出 的 一 种 可 供 选 
择 的 方法 是 人 们 运用 的 标准 方法 。 最 小 距离 估计 最 常用 于 面板 数据 分 析 之 中 。 
最 初 ,在 张伯伦 (Chamberlain，1982，1984) 所 做 的 研究 工作 中 (参见 22. 2. 7 节 )， 
他 令 元 表示 来 自 当 前 时 期 因 变量 对 所 有 时 期 回归 元 的 线性 回归 的 OLS 估计 值 。 后 
来 的 应 用 则 针对 协 方差 结构 (参见 22. 5. 4 节 ), 设 元 表示 面板 数据 的 估计 方差 与 自 
协 方差 。 而 且 , 可 参见 间接 推断 方法 (12. 6 闻 )。 

假定 gq 个 结构 参数 与 7 二 gq 个 简化 式 参 数 之 则 的 关系 是 zx。 二 gC(0o。)。 进 一 步 
地 ,假定 我 们 具有 简化 式 参 数 的 一 致 估计 值 宛 。 一 个 明显 的 估计 量 是 使 得 元 一 g(0 ) 
的 0 ,但 由 于 gq 二 r, 这 是 不 可 行 的 。 相 反 , 最 小 距离 估计 量 [minimum distance 
(MD) estimator jb 是 对 于 6, 对 目标 函数 


QN(0) =—=(A—g0)) Wn (A —g(0)) (6. 66) 
求 极 小 值 , 其 中 ,WA 表示 7 Xr 阶 加 权 和 矩阵 。 


右 克 7ro 且 Wn Wo ,其 中 » Vo 表示 有 限 半 正定 和 矩阵, 则 Qn ‘0 ) 5 Qo (0)— 
(7r — 280)) Wo Ao —g(0)). 由 此 可 得 , 当 Rank| Wo Xag(0) /90 | 二 gq, 则 to 是 局 
部 可 识别 的 ,而 一 致 性 本 质 上 要 求 zo 一 g(0o)。 


对 最 小 距离 估计 量 来 说 , VN C6w 一 8,) 人 N50,，V[6ww 了 ,其 中 
VIOw = GWG) CG Wo VT WoG, ) (Gh WoGo) 7 (6. 67) 
G, 一 9g(0) /30' | ,同时 假定 简化 式 参 数 施 具有 极限 分 布 VN (元 一 ro) “A [0， 
V[ 元 ]]。 由 于 较 小 的 V『[ 计 | 会 使 式 (6.67) 中 的 V6w ] 较 小 ,所 以 更 有 效 的 简化 式 


估计 量 会 产生 更 有 效 的 最 小 距离 佑 计量。 
为 了 得 到 结果 (6. 67) ,以 下 述 对 最 小 距离 估计 量 的 一 阶 条 件 重 新 标 度 来 开始 : 


Gn(0) WyvVN (元 一 g(0 )) 一 0 (6. 68) 
其 中 ,Gv(9) 一 gg(0)/30 。 在 6 附近 进行 精确 一 阶 泰勒 级 数 展开 , 即 ， 
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VNh(it—g(0))=VN(i—m)—GNn(0+)VNGO —0,) (6. 69) 


其 中 ,b+ 位 于 0 与 0 之 间 , 同 时 使 用 了 g(0。) 一 mo。 将 式 (6. 69) 代 人 式 (6. 68) ,并 
解 出 VNC0 一 00) ,得 到 : 


VN(0 —0,)=[GNv(0) WANGN(C9+)] IGv(0) Wy VN( 刘 一 加 ) (6.70) 


这 就 直接 得 出 式 (6. 67) 。 

给 定 简 化 式 估 计量 元 ,最 有 效 的 最 小 距离 估计 量 运 用 式 (6. 66) 的 加 权 和 矩阵 
Wnv=V[ 元 ]-: 。 此 估计 量 称 为 最 优 最 小 距离 估计 量 Loptimal/MD (OMD) estimator]， 
有 时 遵从 弗格森 (Ferguson，1958) 的 说 法 , 称 之 为 最 小 卡 方 估计 量 Cminimum chi- 
Square estimator) 。 

一 种 普遍 的 可 供 选 择 的 特殊 情况 是 等 价 加 权 最 小 距离 估计 量 [ equally weighted 
minimum distance (EWMD) estimator | , 它 设 Ww 二 I。 该 估计 量 的 有 效 性 比 最 优 
最 小 距离 估计 量 稍 差 一 些 , 但 它 并 不 具有 有 限 样本 偏 谷 问题 ,这 点 类 似 于 6. 3.5 市 
曾经 讨论 的 当 运 用 最 优 加 权 和 矩阵 时 产生 的 那些 问题 。 、 

等 价 加 权 最 小 距离 估计 量 能 通过 地 对 g;(0)G 二 1,…,?) 的 NLS 回归 而 直接 
获得 ,因此 , 极 小 化 (元 一 g(0 )) (元 一 g(9 )) 时 产生 的 一 阶 条 件 ,与 具有 Ww 一 I 的 式 
(6. 68) 中 的 一 阶 条 件 相同 。 

对 最 优 最 小 距离 的 目标 晴 数 求 极 大 值 , 就 得 出 卡 方 分 布 。 特 别 地 ,有 : 


( 刘 一 g(Oow)) VC 齐 ]- (元 一 gCOow)) (6. 71) 


上 式 在 Ho: g(6,) 一 mm 下 渐 近 服从 X (Cr 一 q) 。 这 提供 类 似 于 6. 3. 8 节 中 OIR 检验 
的 一 种 模型 设 定 检验 。 

最 小 距离 估计 量 在 性 质 上 类 似 于 广义 矩 方法 估计 量 。 广 义 矩 方法 框架 是 一 种 
被 广泛 使 用 的 标准 框架 。 最 小 距离 估计 经 常用 于 协 方差 结构 的 面板 研究 中 ,这 是 
因为 , 询 包 含 很 容易 估计 的 样本 矩 (方差 与 协 方差 ) ,而 这 些 样 本 和 矩 用 于 得 出 9。 


6.8 经 验 似 然 法 


矩 方法 与 广义 矩 方法 并 不 要 求 对 条 件 密度 的 完全 设 定 。 可 是 ,估计 可 以 建立 
在 形式 为 ELh(Cy,x,b)] 王 0 的 矩 条 件 基础 上 。 归 功 于 欧文 (Owen，1988) 的 经 验 似 
然 方法 , 则 是 建立 在 同样 的 矩 条 件 基础 上 的 一 种 可 供 选择 的 估计 方法 。 

尽管 经 验 似 然 估计 量 在 渐 近 形式 上 等 价 于 广义 矩 方法 估计 量 , 但 其 引 人 注 目 
的 地 方 是 , 它 具 有 不 同 的 有 限 样本 性 质 ,并 且 在 一 些 例子 中 超过 了 广义 矩 方法 估 
计量 。 


6.8.1 属 体 均值 经 验 似 然 仿 计 


我 们 以 纯 量 iid 随机 变量 y 的 情况 开始 讨论 ,其 中 ,> 具有 密度 f(y) 以 及 样本 
似 然 函数 了 ; f(y;)。 这 里 所 考虑 的 复杂 情况 是 没有 设 定 密 度 f(y), 因 而 不 可 以 运 
用 通常 的 极 大 似 然 方法 。 


微观 经 济 计量 学 

完全 非 参 数 方法 企图 在 y 的 第 i 个 样本 值 处 估计 密度 f(y)。 设 zi 二 f(y;) 表 
示 y 的 第 i 个 观测 值 取 实 现 值 y; 的 概率 。 其 日 标 是 对 所 谓 的 经 验 似 然 随 数 ;x， 
求 极 大 值 , 或 者 等 价 地 ,对 对 数 经 验 似 然 衣 数 N ' >;ln zx 求 极 大 值 ,这 是 对 x 没 
有 施加 结构 的 多 项 式 模型 。 该 对 数 似 然 是 无 界 的 ,除非 对 x 的 取 值 范围 加 上 一 个 
约束 。 一 个 常用 的 正规 化 是 jx; 二 1]。 在 完全 非 参 数 的 情况 下 ,正如 我 们 现在 所 阐 
述 的 ,得 出 累积 分 布 函 数 的 标准 合计 。 

经 验 似 然 估 计量 极 大 化 与 w 的 拉 格 朗 日 算 子 : 


TV N 
La (m= nr 7 Dr 1) (6. 72) 
ji 一] ;一 ] 


其 中 ,A 二 [x ,…,xn」 ,而 7 表示 拉 格 朗 日 乘 子 。 尽 管 数 据 y; 并 没有 明确 出 现在 
式 (6.72) 中 ,但 y 却 以 隐 性 方式 出 现 并 成 为 zj; 二 f(yi)。 将 zi(i 二 1,…,NN) 与 wy 的 导 
数 设 定 为 零 ,然后 求解 它们 ,得 到 元 =1VN 与 w 二 1。 因此 ,估计 密度 函数 f(y) 在 
y 的 每 一 个 实现 值 上 具有 质量 1/N,i 一 1,…, N。 所 得 到 的 分 布 函数 是 F(y) 一 
N75 1Cy 过 yy), 其 中 , 当 事 件 A 发生 时 ,有 1(4) 一 1, 和 否则 1(A)=0。F(y) 
恰好 是 通常 的 经 验 分 布 消 数 。 

现在 引入 一 些 参 数 。 举 一 个 简单 例子 ,假如 我 们 引进 矩 约束 ELy 一 yj 二 0, 其 中 ， 
表示 未 知 的 总 体 均 值 。 在 经 验 似 然 背景 下 ,这 个 总 体 矩 可 用 样本 矩 代 替 , 其 中 , 样 
本 算是 通过 概率 x; 来 对 样本 值 进行 加 权 。 因 此 ,我 们 引入 约 东 2 《yi 一 2) 二 0。 
经 验 极 大 似 然 估 计量 的 拉 格 朋 日 算 子 是 ， 


~N N N 
Ca mA) 一 六 nzr 一 多 2) 一]) 一 27m(y 一 站 (6.73) 
;一 1 j= | 1 一 1 


其 中 ,wn 与 4 均 表 示 拉 格 朗 日 乘 子 。 

我 们 从 对 x;(i 二 1,…,NN) .wy 和 4 而 不 是 yx 求 拉 格 朗 日 算 子 的 导数 开始 。 令 这 
些 导 数 为 0, 则 得 到 作为 y 的 清 数 的 一 些 方程 。 然 后 解 方 程 ,得 出 其 解 x ;二 x;(p)， 
进而 获得 对 六 求 极 大 值 的 经 验 似 然 太 -2 ln。 这 种 求解 方法 所 得 到 的 非 线 
性 方程 ,需要 用 数值 方法 加 以 求解 。 

对 这 个 特殊 问题 来 说 , 解 出 ww 的 一 种 比较 容易 的 方法 是 ,注意 到 ,CC7r 7 AAA) 
的 极 大 值 必须 小 于 或 等 于 N 2 ln N ,这 是 因为 , 它 是 一 个 没有 最 终 约束 的 极 
大 值 。 不 过 ,车 x 二 1/N Hj 一 N29; 二 了 7; 则 L(x 7 AAA) 等 于 N' lnN 。 
因此 ,总 体 均 值 的 经 验 极 大 似 然 估 计量 就 是 样本 均值 。 


6. 8.2 问 为 参 并 经 验 似 然 估计 


现在 ,考察 随 i 而 变化 的 iid 的 回归 数据 。 对 此 模型 施加 的 唯一 结构 是 r 个 矩 
条 件 : 
E| hCw; ,0) |=0 (6.74) 


其 中 ,hC:) 与 w; 都 已 由 6. 3. 1 节 定 义 。 例 如 ,对 于 OLS 售 计 来 说 ,h(w,90) 三 
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2- 


经 验 似 然 方 法 就 是 对 经 验 似 然 图 数 N7- >2;lnzr 求 极 大 值 ,其 约束 为 >, x 二 1 
| 参见 (6.72) | 以 及 建立 在 总 体 矩 条 件 (6. 74) 基 础 上 的 另外 样本 约束 , 即 : 


NN 
> ,xh(w,,0) 0 (6b. {5) 
i=] 
因此 ,我 们 对 zx 、w、 和 以 及 09 求 极 大 值 . 
] N N N 
La mMPNOD = No nm (m1) No rh(w,0) (6.76) 
TI 一 ] IT== 一 


其 中 , 拉 格 朗 日 算 子 是 与 h(.) 维 数 相同 的 纯 量 ， 和 列 向 量 )。 

自 先 ,关注 六 个 数 rrv。 对 CCmm7 和 X，69) 求 关于 大 的 微分 ,得 到 
1/CNx) 一 mn 一 入 hi 二 0。 于 是 ,用 去 乘 并 对 i 求 和 ,再 利用 2ixjh; 二 0, 从 而 得 到 
/一 1。 由 此 可 得 ， 





] 


该 问题 现在 简化 成 为 求 关 于 (Cr 十 q) 个 变量 入 与 6 的 极 大 值 问题 ,而 且 , 其 拉 格 朗 日 
算 子 与 > 个 矩 条 件 (6. 74) 以 及 gq 个 参数 8 有 关 。 

甚至 对 恰好 识别 模型 来 说 ,需要 用 数值 方法 加 以 求解 。 人 们 对 明 数 N 二 Xx 
InLl1/NCI 二 hiCw ,9))] 求 关 于 6 与 入 的 极 大 值 。 

或 者 ,首先 关注 入 。 对 CCK9, 和 ), 7， 和) 求 关于 入 的 微分 ,得 到 二 ixrih 一 0。 把 
和 (0) 定义 为 dim( 和 ) 方 程 组 


htw 0) 一 0 





~ 1 


7 一 ] 


的 隐 性 解 。 对 其 求解 时 要 使 用 数值 方法 ,进而 得 出 和 (0) 。 于 是 , 式 (6.77) 变 为 : 


TCD) 一 (6， 78) 


] 
NI 二 和 CO) h(iw;,0)) 


通过 把 式 (6. 78) 代 入 经 验 似 然 函 数 N-: 了 ,ln r 中 ,经 验 对 数 似 然 函数 在 9 处 的 计 
算 值 是 ， 





N 
Ln.(0) 一 一 从 SInLN(G + ACO) hw, ,0))] 
i 二 1 


求 这 个 郴 数 关 于 6 的 极 大 值 , 即 为 经 验 极 大 似 然 估 计量 Lmaximum empirical likeli- 
hood (MEL) estimator |Owe 。 
秦 和 劳 利 斯 (Qin and Lawless，1994) 已 经 证 明 : 


人 cd 1 
VN(Ov 一 0 ) — MN[0,A(Q) 'B(0,)A(0,) !| 


其 中 ,A(0o) 二 plim EL9h(0)/90 1。 ], 而 B(b) 一 plim ELh(O)h(9) |。]。 这 与 矩 方 
法 [参见 式 (6. 13)] 的 分 布 相 同 。 不 过 ,在 有 限 样 本 中 ,Gwar 与 Goww 却 有 所 不 同 ,其 
推断 建立 在 样本 信 计 值 
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0 
B ~ 一 > 元 hi(6 )h (6 ) 


的 基础 上 ,通过 估计 概率 元 而 不 是 比例 1/N 来 进行 加 权 。 

英 伯 斯 (Imbens，2002) 曾 经 提供 将 经 验 似 然 法 与 广义 矩 方 法 进行 比较 的 经 验 
似 然 法 的 一 个 最 新 综述 。 一 些 变形 包括 ,通过 N 2irinri 代 替 式 (6. 76) 的 
N 2;ln wi。 经 验 似 然 法 在 计算 上 更 为 繁琐 ; 有 关 讨 论 , 参 见 英 伯 斯 (Imbens， 
2002)。 其 优点 是 , 渐 近 理论 研究 表明 ,与 广义 矩 方法 佑 计量 的 有 限 样本 近似 相 比 ， 
经 验 似 然 佑 计量 分 布 的 有 限 样本 近似 表现 得 更 好 。 


6.9 线性 方程 组 


上 述 估计 理论 涵盖 了 大 多 数 应 用 研究 所 使 用 的 单方 程 估计 方法 。 现 在 ,我 们 
考察 几 个 方程 的 联合 估计 。 本 节 闸 述 具 有 可 加 误差 的 关于 参数 为 线性 的 一 些 方 
程 ,而 下 一 节 则 给 出 对 非 线 性 方程 组 的 推广 。 

联合 估计 的 主要 优点 是 提高 有 效 性 ,这 是 因为 对 给 定 个 体 来 说 ,并 入 了 不 可 观 
测 的 交叉 方程 方面 的 相关 性 。 再 者 , 耕 交 又 方 程 系 数 存 在 约束 ,就 必须 进行 联合 估 
计 。 对 外 生 回 归 元 方程 组 来 说 ,估计 是 对 单方 程 OLS 与 GLS 估计 的 稍微 推广 ;而 
对 内 生 回 妇 元 来 说 ,估计 则 是 改进 的 单方 程 工具 变量 方法 。 

对 许多 个 体 而 言 ,一 个 重要 例子 是 在 某 个 时 点 上 的 那些 可 观测 的 几 种 商品 的 
需求 方程 组 。 对 看 似 不 相关 回归 来 说 ,所 有 回归 元 都 是 外 生 的 ;而 对 联 立 方程 模型 
来 说 ,一 些 回 归 元 是 内 生 的 。 

第 二 个 重要 例子 是 面板 数据 ,其 中 ,对 许多 个 体 而 言 ,在 几 个 时 点 上 的 单个 方 
程 都 是 可 观测 的 ,并 且 把 每 一 个 时 期 处 理 成 为 单独 方程 。 通 过 把 面板 数据 模型 看 
成 是 方程 组 的 例子 , 当 某 些 回 归 元 是 内 生 的 时 候 , 改 进 有 效 性 、 获 得 面板 标准 误差 
以 及 推导 工具 就 是 可 行 的 。 

许多 经 济 计 量 学 教科 书 都 对 线性 方程 组 内 容 进 行 长 篇 大 论 。 这 里 的 阐述 则 非 
常 简 洁 。 此 处 主要 针对 非 线 性 方程 组 的 推广 (参见 6. 10 节 ) 以 及 面板 数据 的 应 用 
(参见 第 21 章 一 第 23 章 )。 


6.9.1 线性 方程 组 


单方 程 线性 模型 由 y; 二 xiB8 十 u; 给 出 ,其 中 ,y; 与 网 均 表示 纯 量 ,而 x 与 8 均 
表示 列 向 量 。 具 有 G 个 因 变 量 的 多 方程 线性 模型 Cmultiple-equation linear model) 
或 多 元 变量 线性 模型 (maltivariate linear model) 由 


yi 二 XB 十;， 1 二 1 ,…… ,NN (8.79) 


给 出 ,其 中 ,y 与 uw 均 表 示 GX1 维 向 量 , 而 天 表示 GXK 阶 和 矩 阵 , 8 表示 K 民 XI1 维 
列 向 量 。 
本 市 始终 做 出 误差 和 呵 量 w 对 于 不 同 ; 都 是 独立 的 模 截 面 假设 ， 因此 ELwwj 二 
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0, 对 于 i)。 不 过 ,对 于 给 定 i 来 说 ,u 的 成 分 可 能 是 相关 的 ,而 且 其 方差 与 协 方 
差 随 : 而 变化 ,就 第 ;个 个 体 而 言 , 得 出 条 件 误差 矩阵 : 


9 一 ELuu |X, | (6. 80) 


存在 多 种 方式 建立 多 方程 模型 。 在 一 种 极端 情况 下 ,看 似 不 相关 方程 模型 把 
G 个 方程 组 合 起 来 ,诸如 对 各 种 不 同 消费 者 而 言 的 商品 需求 ,其 中 ,参数 会 随 不 同 
方程 而 变化 ,而 回归 元 对 于 不 同方 程 来 说 可 能 变化 也 可 能 不 变化 。 在 另 一 种 极端 
情况 下 ,线性 面板 数据 则 把 相同 方程 的 G 个 时 期 数据 组 合 起 来 ,其 参数 在 不 同时 期 
为 常 值 ,并 且 回 归 元 在 不 同时 期 可 能 变化 也 可 能 不 变化 。 这 两 种 情况 将 在 6. 9. 3 
节 与 6. 9. 4 节 加 以 阐述 。 

各 对 NN 个 个 体 合 放 式 (6.79), 则 得 到 、 


1 XI U1 
有 站 所 6.81 
YN N -Uy 


y—XOTu (6. 82) 


其 中 ,y 与 u 均 表示 NGX1 维 向 量 ,X 表 示 NGXK 阶 和 矩阵 。 

下 面 给 出 的 结果 如 同 单方 程 情况 一 样 , 以 同样 方式 处 理 香 放 模 型 (6. 82) 而 获 
得 。 因 此 ,OLS 估 计量 是 8 二 (X'X) !'X'y, 而 在 具有 工具 和 矩阵 Z 的 恰好 识别 情况 
下 ,工具 变量 估计 量 是 6 一 (ZX) 1Z'y。 其 唯一 变化 是 ,对 角 误 差 矩 阵 的 横 截 面 假 
设 由 分 块 对 角 误 差 矩 阵 假设 来 代替 。 在 计算 系统 估计 量 的 估计 方差 矩阵 和 构建 可 
行 GLS 估计 量 与 有 效 广义 矩 方法 估计 量 时 ,都 需要 考虑 这 种 对 角 性 。 


6.9.2 系统 OLS 与 FGLS 人 入 计 


对 方程 组 (6. 82) 进 行 OLS 估计 ,得 到 系统 普通 最 小 二 乘法 佑 计量 (systems 
OLS estimator)(X X)-IXYyY。 利 用 式 (6. 81) ,可 立刻 得 出 : 





或 


N N 
Fors 一 XXX 之 ,Xiy (6. 83) 


该 估计 量 服从 渐 近 正 态 分 布 , 知 假 定数 据 对 不 同 i 是 独立 的 ,就 可 利用 通常 稳健 三 
明治 结果 ,从 而 有 : 


N 
VL Beos| = i Dxaa XT xx (6. 84) 
i=:1 ;一 1 i 一 ] 


其 中 ,二 y; 一 X;B。 此 方差 矩阵 估计 值 允许 误差 的 条 件 方 差 与 协 方差 随 不 同 个体 
的 变化 而 不 同 。 

给 定 个 体 且 已 知 误差 向 量 成 分 的 相关 性 , 则 更 有 效 的 估计 可 通过 GLS 或 
FGLS 来 获得 。 若 观测 值 对 不 同 i 是 独立 的 ,系统 GLS 佑 计量 (systems GLS 
estimator) 就 可 应 用 到 变换 方程 组 : 
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QO y=—Q XGO Tu (6. 85) 
其 中 ,@ 表示 由 式 (6. 80) 定 义 的 误差 方差 矩阵 。 变 换 误 差 Qu 具有 零 均 值 , 其 
方差 为 : 
ELCR “uw) Qu) IX 0 Eww |X, 0 
一 人 ‘A200 
一 二 
因此 ,变换 方程 组 的 误差 为 同方 差 的 , 且 对 G 个 方程 来 说 ,是 不 相关 的 ,从 而 OLS 
是 有 效 的 。 
. 为 了 得 到 此 估计 量 , 需 要 对 Q@ 模型 加 以 设 定 ; 比 如 说 2 二 (YY)。 然 后 ,对 变 


换 方 程 组 执行 系统 OLS 合计 ,其 中 ,Q 用 QQ CC7 ) 人 代替, 而 了 表示 > 的 一 致 估计 值 。 
这 联 得 到 系统 可 行 广义 最 小 二 乘法 估计 量 Lsystem feasible GLS (SFGLS) estimator ] : 


i N 
Bus 一 [2 XGO 2 XO y. (6. 86) 
该 信 计 量 服 从 渐 近 正 态 分 布 ,同时 为 了 防止 对 (YY) 的 可 能 错误 设 定 , 可 使 用 方差 
年 阵 的 稳健 三 明治 估计 值 : 
N N N 
VifBpas] = [OXARAX] OXON GUA KX XN XK | 6.87) 


其 中 ,9 一 Q(7)。 
对 Q2; 的 最 普遍 设 定 是 ,对 不 同 i 来 说 ,假定 Q 是 不 变 的 。 那 么 ,就 有 限 的 G 
且 N 一 oo0 而 言 ,2 二 QQ 是 一 个 GXG 阶 和 矩阵 ,QQ 可 通过 


N 
包工 ya (6. 88) 
AN 二 


得 到 一 致 估计 ,其 中 负 一 y; 一 XBsos。 于 是 , 式 (6. 86) 的 系统 可 行 广义 最 小 二 乘法 
估计 量 就 是 用 代替 多 ,经 过 一 些 代 数 运算 之 后 ,还 可 将 此 估计 量 写成 ; 
Bras 一 [XIQIDIX]TTTIXCG LIGINDY (6. 89) 


其 中 ,@ 表 示 克 罗 内 克 积 (Kronecker product)。 例 如 ,对 不 同 i 的 异 方差 性 来 说 ,要 
排除 其 假设 :9 一?。 这 是 一 个 很 强 的 假设 ,而 且 在 许多 应 用 中 ,一 种 最 好 的 方式 
是 利用 式 (6. 87) 计 算 稳健 标准 误差 ,即使 Q 随 不 同 i 而 变化 , 仍 能 得 到 正确 的 标 
准 误 差 。 


6.9.3 看 似 不 相关 回归 


看 似 不 相关 回归 模型 [seemingly unrelated regression (SUR) model | 设 定 如 下 ， 
对 NN 个 个 体 的 第 i 个 而 言 ,G 个 方程 的 第 g 个 是 由 下 式 给 出 : 


yi — Xi Bs wi, g=1,** ,GG, 2 一 |] 人 (6. 090) 
其 中 ,xx 表示 回归 元 ,假定 %is 是 外 生 的 , B。 表示 Ks X1 维 参 数 回 量 。 例 如 ,有 NN 
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个 个 人 钵 需求 G 种 商品 数据 ,yi 可 以 是 第 i 个 个 体 对 商品 g 的 开支 ,或 者 是 对 商品 g 
的 预算 但 。 尽 管 N>co, 但 假定 合计 总 数 G 是 同 定 的 且 适 当 小 。 注 意 到 ,我 们 使 
用 下 标 次 序 yi 作为 结果 ,就 很 容易 对 具有 变量 yi 的 面板 数据 加 以 变换 (参见 
6. 9.4 太 )。 其 他 一 些 学 者 则 使 用 相反 次 序 入。 

看 似 不 相关 回归 模型 是 由 泽 尔 纳 (Zellner,1962) 提 出 的 。 看 似 不 相关 回归 这 
一 术语 容 多 使 人 产生 误解 ,因为 如 果 不 同方 程 中 的 误差 ui 是 相关 的 ,那么 一 些 方 
程 显然 是 相关 的 。 对 看 似 不 相关 问 归 模型 来 说 ,yi 与 yi 之 间 的 关系 是 间接 的 ;这 
会 通过 相关 关系 而 转 递 到 不 同方 程 的 误差 关系 上 。 

估计 是 把 不 同方 程 的 观测 值 与 每 个 个 体 的 观测 值 结 合 起 来 。 从 微观 经 济 计 量 
学 应 用 的 角度 来 看 ,假定 对 不 同 i 具有 独立 性 ,一 种 最 简便 的 方式 是 ,首先 对 给 定 
个 体 登 放 有 所 有 方程 。 对 第 i 个 个 体 的 所 有 GG 个 方程 加 以 夺 放 ,得 出 : 


Vil Xi 0 0 8 Uj] 
:| 一 0 % 0 :+|: 
Vi- 0 0 Xi Bi MiG 


七 具有 式 (6.79) 的 yy; 二 XB 十 y; 形式 ,其 中 ,y; 与 均 表 示 GX1 维 向 量 , 其 第 g 个 
元 素 分 别 为 yi 与 uis ,X 表示 GXK 阶 矩 阵 , 其 第 g 行 为 [0…xe…0], 而 如 = 
[ 忆 … 的 ] 表 示 KX1 维 向 量 ,其 中 ,K 二 Ki 十 … 十 Kc。 不 过 ,一 些 作 者 对 给 定 方程 
进行 个 放 , 得 出 相同 估计 量 ,但 具有 不 同 的 代数 表达 式 。 

已 知 X 与 Y 的 定义 ,容易 证 明 式 (6. 83) 中 的 [ors 是 : 


AN / 一 ] N 


(6.91) 











A 








en N f YN 
| > ， ;= Xi Xe; | >， 1 KGY i 


因此 ,系统 OLS 与 各 上 自 逐 一 方程 OLSCequation-by-equation OQLS) 是 一 样 的 。 正 如 
先前 人 们 所 料 , 春 不 同方 程 之 间 的 唯一 联系 是 误差 ,同时 误差 可 被 处 理 成 不 相关 
的 , 则 联合 佰 计 就 衡 化 成 为 单方 程 估计 。 

一 个 较 好 的 估计 量 是 由 式 (6. 86) 所 定义 的 可 行 GLS 佑 计量, 它 利 用 式 (6. 88) 
中 的 Q 和 基于 式 (6. 87) 中 渐 近 方差 的 统计 推断 。 一 般 来 讲 , 此 估计 量 比 系统 OLS 
更 为 有 效 ,尽管 可 以 证 明 ,和 奉 误 差 在 不 同方 程 之 问 是 不 相关 的 ,或 痢 相同 回归 元 恰 
好 出 现在 每 一 个 方程 中 , 则 会 简化 成 OLS。 

看 似 不 相关 回归 模型 可 利用 交叉 方程 参数 约束 (cross-equation parameter re- 
strictions) 。 例 如 ,对 称 性 约束 可 能 蕴含 着 ,第 一 个 方程 中 的 第 二 个 回归 元 系数 等 
于 第 二 个 方程 中 的 第 一 个 回归 元 的 系数 。 如 果 这 类 约束 是 等 式 约束 ,那么 人 们 很 
容易 通过 式 (6. 79) 给 出 的 X; 与 8 重新 适当 定义 来 估计 模型 。 例 如 ,如 果 存 在 两 个 
方程 且 约 束 是 BG: =— A ;那么 定义 X, 一 | x 一 Xiz ] 与 好 一 Li 。 或 者 ,利用 对 其 参 
数 为 线性 约束 的 单方 程 OLS 与 具有 GLS 的 方程 组 进行 推广 来 加 以 估计 。 

此 外 ,方程 组 可 能 出 现 的 情况 是 ,误差 问 量 u; 的 方差 矩阵 是 奇异 的 ,这 是 由 加 
总 约束 (adding-up constraints) 引 起 的 。 例 如 ,假定 yi 表示 第 i 个 预算 值 ,从 而 模型 
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yz 二 Qs 十 ZB 十 ws ,其 中 ,相同 回归 元 出 现在 每 一 个 方程 中 。 那 么 ,由 于 预算 值 之 
和 为 1, 所 以 oyig 二 1, 这 就 要 求 2gas 一 1、2sBs 一 0 以 及 >ouis 二 0。 而 最 后 的 约 
束 意味 着 网 是 奇异 的 ,从 而 是 不 可 闭 的 。 人 们 能 去 掉 一 个 方程 ,比如 说 最 后 一 个 ， 
然后 通过 对 剩 下 的 G 一 1 方程 用 系统 估计 法 估计 模型 。 于 是 ,第 G 个 方程 的 参数 
估计 可 利用 加 总 约束 来 获得 。 例 如 ,ic 王 1 一 (如 十 … 十 co)。 在 此 背景 下 ,对 人 参 
数 利 用 等 式 约束 也 是 可 行 的 。 文 献 中 存在 一 些 方法 :所 求 估计 值 在 去 掉 方 程 后 是 
不 变 的 。 例 如 ,参见 波恩 特 和 陕 文 (Berndt and Savin, 1975), 


6.9.4 面 松 数 据 


系统 GLS 方法 的 为 一 个 重要 应 用 是 面板 数据 ,其 中 ,对 NN 个 个 体 来 说 , 纯 量 
因 变 量 在 本 个 时 期 的 每 一 个 中 都 是 可 观测 的 。 可 将 面板 数据 看 成 一 个 方程 组 , 即 
六 个 个 体 的 工 个 方程 或 者 工 个 时 期 的 N 个 方程 。 在 微观 经 济 计量 学 中 ,我 们 假 
定 短 面板 具有 很 小 的 TT 且 N 一 oo, 故 把 它 设置 成 纯 量 因 变量 y% 是 很 自然 的 ,其 中 ， 
前 面 所 讨论 的 第 g 个 方程 现在 被 解释 为 在 第 上 个 时 期 日 G==T，。 

一 个 简单 面板 数据 模型 (simple panel data model) 是 : 


yi = XB ui， 1 一 1]，… ,TT, i111, ,NN (6,. 92) 


它 是 式 (6. 90) 的 一 种 特殊 形式 ,其 中 ,23 为 常 值 。 于 是 , 式 (6.79) 的 回归 元 矩阵 变 
成 XX 二 [xa…XiT」。 经 过 一 些 代数 运算 后 , 式 (6. 83) 定 义 的 系统 OLS 估计 量 能 重 
新 写成 : 


N 了 N 7 
/Seors 一 | > XXX 上 > Ni (6. 93) 
i=1 t=i i=1 1—1 


该 估计 量 称 为 混合 OLS 佑 计量 (pooled OLS estimator) ,这 是 因为 它 把 横 截 面 数 据 
与 时 间 序 列 数据 混合 或 组 合 在 一 起 。 

混合 估计 量 可 直接 通过 yi 对 xi 的 OLS 估计 来 获得 。 不 过 ,车 对 于 给 定 的 i 
ui 对 不 同 的 t 是 相关 的 , 则 被 假定 为 赋 对 不 同 1 又 对 不 同上 具有 误差 独立 性 的 默认 
OLS 标准 误差 是 无 效 的 , 且 具 有 很 大 的 向 下 偏 从。 但 是 ,统计 推断 应 建立 在 由 式 
(6. 84) 给 出 的 协 方差 矩阵 的 稳健 形式 的 基础 上 上。 这 将 在 21. 2. 3 节 详 细 曾 述 。 在 
实际 应 用 中 ,可 估计 比 包括 特定 个 体 效 应 的 式 (6. 92) 更 为 复杂 的 模型 (参见 21. 2 
节 )。 


6.9.5 系统 工具 变量 估计 

6.4 节 已 经 阐述 对 具有 内 生 回归 元 的 单个 线性 方程 估计 。 当 ELu |X;j 隆 0 时 ， 
将 这 种 方法 推广 到 多 元 线性 模型 (6. 79) 上 。 为 了 获得 一 致 是 有 效 的 估计 , 布 伦 迪 
和 乔 根 森 (Brundy and Jorgenson，1971) 曾 考察 用 于 方程 组 的 工具 变量 估计 。 

我 们 假定 存在 GXr 阶 工 具 和 矩阵 Z; , 它 满足 ELumiZ 一 0, 因 此 有 : 

: E[Z(y;—XB) |=0 (6. 94) 

若 利用 单方 程 工具 变量 方法 ,这 些 工具 能 用 于 获得 一 致 参数 估计 ,但 联合 方程 估计 
能 改进 有 效 性 。 系 统 广 义 抵 方法 估计 量 (systems GMM estimator) 极 小 化 下 式 : 
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Qu(8) = [OZ — XB) | Www DZ 一 XGO) | (6. 95) 
i 一 ] 1 一 ] 
其 中 ,Wn 表示 7 Xr 阶 加 权 和 矩阵 。 经 过 一 些 代数 运算 ,得 到 ， 
Ba 一 [LXZWNZX] ‘LX ZWNZ yy ! (6. 96) 


其 中 ,X 表示 通过 秋 放 XI ,… ,Xn 获得 的 NG XK 阶 和 矩阵 [ 参见 式 (6. 81)j], 而 Z 表 
示 通 过 类 似 方式 有 释放 获得 的 NG Xr 阶 和 矩阵 。 系 统 广 义 矩 方法 佑 计量 确实 与 式 
(6. 37) 具 有 相同 形式 ,而 且 其 渐 近 方差 矩阵 是 由 式 (6. 39) 给 出 的 形式 。 由 此 可 得 ， 
在 方程 组 情况 下 ,同时 假定 对 不 同 ; 具有 独立 性 ,其 方差 矩阵 的 稳健 佑 计 值 是 : 


VI Baum |=N[X ZWNZX)] IILXZWNSWANZ'X][XZWNZX] II (6.97) 
其 中 : 
S 一 NZ (6. 98) 
需要 特别 注意 对 加 权 和 矩阵 的 几 种 不 同 选择 。 
第 一 ,最 优 系统 广义 矩 方法 估计 量 (optimal systems GMM estimator) 是 满足 
WNv 一 SS 的 式 (6. 96) , 其中; 已 由 式 (6. 98) 定 义 。 于 是 ,其 方差 矩阵 简化 成 : 


V[ osmm |=N [XZS 1Z'X] 


该 估计 量 是 建立 在 矩 条 件 (6. 94) 基 础 上 的 最 有 效 的 广义 矩 方 法 估计 量 。 提 高 有 效 
性 源 于 两 个 因素 .(1) 一 个 因素 是 系统 估计 , 它 允 许 不 同方 程 的 误差 项 是 相关 的 ， 
因此 ,VLu; |Z ] 并 没有 被 限制 为 分 块 对 角 的 ; (2) 另 一 个 因素 是 考虑 相当 一 般 的 异 
方差 性 与 相关 性 , 故 站; 能 随 不 同 i 而 变化 。 

第 二 , 当 Wn 一 (N !'Z ZV) -1 时 ,得 到 系统 2SLS 佑 计量 (systems 2SLS estima- 
tor) 。 考 察 由 式 (6. 91) 定 义 的 看 似 不 相关 回归 模型 ,一 些 回 归 元 x 是 内 生 的 。 仿 
如 我 们 定义 工具 和 矩阵 是 : 





zz 0 0 
Z 一 |0  … 0 (6. 99) 
0 0 Zi 





系统 2SLS 就 简化 为 包含 第 g 个 方程 的 工具 z 的 逐一 方程 2SLS。 在 许多 应 用 中 ， 
ZZ Lp , 共同 工具 集合 用 于 所 有 方程 9 但 我 们 并 不 需要 把 分 析 限 制 在 这 种 
情况 。 如 果 我 们 定义 丈 王 [za …z7], 对 面板 数据 模型 (6. 92) 来 说 ,系统 2SLS 就 会 
简化 成 混合 2SLS。 

第 三 ,假定 VLu12Z ] 并 不 随 不 同 i 而 变化 ,因而 VLuw|2Z;j] 二 QQ。 这 是 一 个 与 单 
方程 异 方差 性 假设 类 似 的 形式 。 于是, 如同 式 (6. 88), 8 的 一 致 估计 值 是 中 一 
N72;fytv ,其 中 ,i 表示 建立 在 一 致 工具 变量 估计 量 辟 如 系统 2SLS 基础 上 的 残 
差 。 那 么 ,最 优 广义 矩 方法 估计 量 是 满足 Ww 二 Iy 8 0 的 式 (6. 96)。 该 估计 量 应 
与 下 一 节 末 尾 所 述 的 三 阶段 最 小 二 乘法 可 以 比较 。 
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6.9.6 线性 联 六 亡 程 组 


2.4 节 引进 的 线性 联 立 方程 模型 是 一 种 非常 重要 的 模型 ,研究 生 水 平 的 经 济 
计量 学 导论 经 常 对 此 类 模型 详细 阐述 。 本 节 给 出 一 个 非常 简洁 而 又 完整 的 概述 。 
有 关 识 别 的 讨论 和 第 2 章 的 内 容 相 重 倒 。 由 于 存在 内 生变 量 , 所 以 OLS 与 SUR 
全 计量 均 是 非 一 臻 的。 一些 标准 方法 已 在 广义 和 矩 方法 出 现 之 前 就 得 到 很 好 的 发 
展 ,但 是 ,一 致 估计 方法 仍 可 放 在 广义 矩 方法 估计 的 背景 下 。 

线性 联 立方 程 模型 设 定 如 下 ,对 于 NN 个 个 体 的 第 i 个 而 言 ,G 个 方程 的 第 g 个 
由 下 式 给 出 : 


yi 一 Zr 十 Yi fd tuis, g 一 |，…，(Cr (60. 100) 


其 中 ,下 标 次 序 采用 6. 9 节 而 不 是 2.4 节 的 次 序 ,z 表示 外 生 回 归 元 向 量 , 假 定 外 
生 回 归 元 与 误差 项 xs 是 不 相关 的 ,而 Ye 表示 包括 其 他 G 一 1 个 方程 的 因 变 量 
Vil9*s Vol Met1l9""s Vo 的 子 集 问 量 ，。 由 于 ¥, 与 模型 误差 相关 , 故 Y, 是 内 生 
的 。 第 ;个 个 体 的 模型 等 价 地 写成 : 


Yi: 了 十 z 工 一 由 (6. 101) 


其 中 ,Yi 一 | yi …yic」 表示 GX1 维 内 生变 量 问 量 ,z. 表示 rX1 维 外 生变 量 向 量 ,z 
是 z1 ，*… ,2 的 并 集 ,u 一 [ze …Uc」 表示 GX1 维 误差 问 量 ,B 表示 GXG 阶 对 角 
元 京 为 1 的 参数 矩阵 , 工 表示 >XG 阶 参数 矩阵 ,B 与 工 的 一 些 元 素 被 限制 成 1。 假 
定 uw 对 不 同 i 是 iid 的 ,其 均值 为 0, 且 方差 矩阵 为 瑟 。 

把 模型 (6. 101) 称 为 结构 式 (structural form) ,对 应 于 各 种 不 同 结构 ,对 了 与 工 
具有 不 同 的 限制 。 把 内 生变 量 求解 为 外 生变 量 的 一 数 ,就 得 到 简化 式 (13Creduced 
form) : 

yi — ZTB + wB (6. 102) 
=zIItv, 


其 中 ,II 一 一 TB :表示 rXG 阶 简化 式 的 参数 和 矩 阵 , 而 v; 二 wB ! 表 示 简 化 式 误差 
向 量 , 其 方差 为 QQ 一 (B 1!) 2B-: 。 

简化 式 可 通过 OLS 一 致 估计 出 来 ,得 出 于 二 一 TB 7! 与 Q 一 (B "1) ZB 一 的 估 
计 值 。 如 2.5 节 所 示 , 识 别 问题 意 指 ,上 述 估计 能 否 得 出 结构 式 参 数 BIT 以 及 B 
的 唯一 估计 值 。 由 于 对 了 BT 没 有 限制 ,而 且 互 包含 比 开 与 中 更 多 的 参数 ,因此 需 
要 一 些 参数 元 素 。 第 g 个 方程 参数 识别 (identification of parameters) 的 必要 条 件 
是 阶 条 件 (order condition) , 即 第 g 个 方程 没有 包含 的 外 生变 量 数量 必须 至 少 等 于 
包含 的 内 生变 量 数量 。 这 与 6. 4. 1 节 给 出 的 阶 条 件 是 一 致 的 。 例 如 ,假如 式 
(6. 100) 中 的 Ye 具有 一 个 元 素 , 所 以 该 方程 存在 一 个 内 生变 量 , 则 x; 至 少 有 一 个 
元 素 必 须 没 有 被 包含 进来 。 这 样 做 就 保证 存在 与 回归 元 一 样 多 的 工具 。 识 别 的 充 
分 条 件 是 较 强 的 秩 条 件 。 一 些 书籍 ,比如 格林 (Greene，2003) 等 ,都 给 出 秩 条 件 ， 


13 又 称 为 简化 型 。 一 一 译 者 注 
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这 里 为 了 简洁 起 见 不 青 阐述 。 其 他 一 些 约束 ,比如 协 方差 约束 ,也 会 导致 识别 。 

倘 大 已 知识 别 , 则 通过 式 (6. 44) 定 义 的 二 阶段 最 小 二 乘法 (two-stage least 
squares) ,对 每 个 方程 单独 估计 ,就 能 一 致 估计 出 结构 模型 参数 。 同 样 的 工具 集合 
z; 可 用 于 每 一 个 方程 。 在 第 g 个 方程 中 , 子 元 素 zs 用 作 其 自身 的 工具 ,而 z; 的 其 
余 元 素 则 用 作 Ye 的 工具 。 

更 有 效 的 系统 估计 可 以 利用 泽 尔 纳 和 泰 尔 (Zellner and Theil, 1962) 的 三 阶段 
最 小 二 乘法 (3SLS) 估 计量 来 得 到 ,该 方法 假定 误差 为 同方 差 的 ,但 对 不 同方 程 却 
是 相关 的 。 首 先 , 通 过 y 对 z 的 OLS 回归 ,估计 出 式 (6. 102) 的 简化 系数 开 。 其 
次 ,通过 式 (6. 100) 的 OLS 回归 ,获得 2SLS 估计 值 , 其 中 ,Y, 要 用 简化 式 预测 值 
Ys 一 Zz TU 代替 。 这 正 是 ys 对立 与 z 的 OLS 回归 ,或 者 等 价 地 ,y 对 文 的 OLS 
回归 ,其 中 ,% 表示 来 自 关 于 z 的 OLS 回归 的 对 Y, 与 z 的 预测 。 最 后 ,通过 y, 对 
xs 的 系统 OLS 回归 ,得 出 3SLS 估计 值 ,g 二 1,…,G。 于 是 ,由 式 (6. 89) 可 得 出 : 


Osus = [X’ (5 1 1 )X|-'X (EH 1® IN)y 


XI 0 ,XN 而 得 到 的 ,而 具有 ii 残 差 回 量 的 5=N 2 证 则 由 25LS 估计 值 计 
算出 。 

在 系统 广义 短 方法 估计 量 的 每 一 个 方程 均 使 用 相同 工具 的 情况 下 ,这 个 估计 
量 与 满足 WN 一 To > 的 系统 广义 矩 方法 人 计量 是 一 致 的 。 另外 ,如 果 Fl u; 2 一 
0, 尽 管 3SLS 与 系统 广义 和 矩 方法 会 产生 一 致 估计 值 ,但 它们 还 是 不 同 的 。 


6.9.7 线性 方 香 组 ML 合计 


本 质 上 讲 , 线 性 模型 的 系统 估计 量 是 将 推断 建立 在 稳健 标准 误差 基础 土 的 LS 
或 工具 变量 佑 计量 。 现 在 ,还 假定 有 正 态 分 布 iid 的 误差 项 , 故 和 一 人 WL0,QR]. 

对 具有 外 生 回 归 元 的 方程 组 来 说 ,所 得 到 的 MLE 渐 近 地 等 价 于 GLS 估计 量 。 
不 过 ,这 些 佑 计量 使 用 @ 的 不 同 估 计量 ,从 而 86 不同, 因此 ,MLE 与 GLS 估计 量 之 
间 存 在 小 样本 差异 。 例 如 ,参见 第 21 章 的 随机 效应 面板 数据 模型 。 

对 线性 联 立 方程 组 (6. 101) 来 说 ,有 限 信息 极 大 似 然 (limited information max- 
imum likelihood) 佑 计量 , 即 单方 程 极 大 似 然 知 计量 , 渐 近 地 等 价 于 2SLS。 完 全 信 
息 极 大 似 然 (full information maximum likelihood) 估 计量 , 妈 系 统 MLE, 渐 近 地 等 
价 于 3SLS。 例 如 ,参见 施 密 特 (Schmidt，1976) 和 格林 (Greene，2003 ) 。 


6. 10 ” 丰 线 性 方程 组 


现在 ,考察 关于 参数 为 非 线 性 的 方程 组 。 例 如 ,从 所 设 定 的 直接 效用 或 间接 效 
用 中 得 到 的 需求 方程 组 ,可 能 关于 参数 是 非 线 性 的 。 更 一 般 地 讲 , 如 果 非 线性 模型 
适用 于 孤立 研究 的 因 变 量 , 臂 如 logit 或 泊 松 模型 ,那么 这 两 个 或 更 多 变量 的 任何 
联 立 模型 将 一 定 是 非 线 性 的 。 

在 关注 侦 参 数 建 模 之 前 ,以 对 完全 参数 联 立 建 模 开始 讨论 。 如 同 线性 情况 一 
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样 , 在 考虑 内 生 回归 元 复杂 情况 之 前 ,阐述 具有 外 生 回 归 元 的 模型 。 
6. 10.1 非 线 性 方程 组 极 大 似 然 信 计 


5. 6 节 已 经 前 述 单个 因 变 量 的 极 大 似 然 佑 计 。 这 些 结果 能 立即 应 用 到 几 个 因 
和 不 量 的 联 立 模型 ,只 需要 做 出 很 小 改变 而 已 , 即 单个 因 变 量 的 条 件 密度 f(y |x ,0) 
变 为 f(y; |X;,0) ,其 中 ,y; 表示 因 变 量 向 量 ,X, 表示 所 有 回归 元 ,而 9 表示 所 有 
参数。 . 

例如 , 若 y1~~A/Lexp(x1B;), gj] 目 ys 一 MLexp(x2B;), 有 ], 则 可 假定 适当 的 
联 立 模型 (y, ，y; ) 服 从 二 元 正 态 分布 , 其 均值 分 别 为 exp(x Di ) 与 exp(x2B;), 方 
差分 别 为 oi 与 到 , 且 相 关系 数 为 p。 

对 于 数据 不 服从 正 态 分 布 的 情况 ,在 设 定 和 选取 充分 灵活 联合 分 布 的 方面 存 
在 一 些 挑战 。 例 如 ,对 单 变 量 计 数 而 言 ,标准 的 开始 模型 是 负 二 项 式 ( 参 见 第 20 
章 )。 不 过 ,在 把 这 种 方法 推广 到 二 变量 或 者 多 变量 的 计数 模型 时 ,存在 几 种 可 供 
选择 的 二 变量 负 二 项 式 模型 。 例 如 ,就 单 变量 条 件 分 布 或 者 单 变量 的 边际 分 布 是 
人 理 是 负 二 项 式 而 论 ,它们 是 一 样 的 。 与 之 相 比 ,多 变量 正 态 分 布 具有 条 件 分 布 和 边 
际 分 布 ,它们 都 服从 正 态 分 布 。 所 有 这 些 多 变量 负 二 项 式 对 相关 范围 设置 了 某 些 
约束 ,诸如 正 相 关 约 束 , 但 是 对 多 变量 正 态 而 言 , 则 不 存在 这 种 约束 。 

全 运 的 是 ,现代 计算 发 展 人 允许 设 定 较 为 丰富 的 模型 。 例 如 ,假定 一 种 合情合理 
的 相关 二 变量 计数 的 灵活 模型 ,是 以 不 可 观测 值 s 与 es 为 条 件 的 ,yi 服从 均值 为 
exp(Xi6G1i 十 ei ) 的 泊 松 分 布 ,ys 服从 均值 为 exp(xi Bi 十 ez ) 的 泊 松 分 布 。 估 计 二 
量 分 布 可 通过 假定 不 可 观测 的 si 与 ss 服从 二 变量 正 态 分 布 , 并 且 通 过 积分 去 掉 el 
与 sz 来 获得 。 对 这 种 二 变量 分 布 来 说 ,不 存在 闭 型 解 ,但 其 参数 却 可 利用 12. 4 节 
将 阐述 的 极 大 模拟 似 然 法 得 到 估计 。 

本 书 的 第 4 部 分 将 给 出 非 线 性 联 立 模型 的 一 系列 例子 ， 最 简单 的 联 立 模型 不 
具有 灵活 性 ,因而 一 致 性 依赖 于 约束 非常 强 的 分 布 假设 。 不 过 ,一 般 地 讲 , 设 定 更 
灵活 的 模型 能 利用 计算 密集 方法 加 以 估计 ,这 样 做 不 存在 理论 上 的 障碍 。 

特别 地 ,19. 3 节 将 详细 前 述 两 种 重要 的 方法 ,用 于 生成 丰富 的 多 变量 参数 模 
型 。 这 些 方 法 在 持续 期 限 数据 模型 的 背景 下 给 出 ,但 具有 更 广泛 的 可 应 用 性 。 首 
先 , 可 引 和 人 相关 的 不 可 观测 异 质 性 (unobserved heterogeneity) , 如同 在 二 变量 计数 
例子 中 那样 。 其 次 ,可 以 运用 联接 5C12Ccopuias) , 它 提 供 一 种 生成 已 知 设 定单 变量 
边 绿 分布 的 联合 分 布 的 方法 。 

对 极 大 似 然 佑 计 来 说 ,一 种 比较 简单 却 稍 大 有 效 性 的 拟 极 大 似 然 方法 是 , 设 定 
.1 与 了 2 的 各 目 参 数 模型 ,并且 通 过 .1 与 -.Y2 的 独立 性 ,可 获得 极 大 似 然 估计 值 ,不 
过 ,人 允许 y 与 y% 是 相关 的 ,就 可 实施 统计 推断 。 这 些 内 容 已 由 5.7. 5 市 曾 述 。 本 
节 的 余下 部 分 考察 此 类 偏 参数 方法 。 

倘 帮 和合 在 内 生性 , 则 存在 较 大 的 挑战 性 ,因此 ,在 一 个 方程 中 出 现 的 因 变 量 , 作 


[1] 这 里 把 “copulas” 译 为 “联接 ” ,以便 与 一 般 广义 模型 中 的 另 一 个 被 称 为 标准 连接 (canonical link) 的 
术语 相 区 别 。 有 人 把 “copulas” 译 成 连接 。 一 一 译 者 注 
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为 另 一 个 方程 的 回归 元 。 除 带 有 服从 正 态 分 布 可 加 误差 的 非 线性 回归 模型 之 外 ， 
存在 极 少数 非 线性 联 立 方程。 


6. 10.2 非 线 性 方程 组 


就 线性 回归 而 言 ,从 单方 程 到 多 个 方程 的 变动 是 显而易见 的 ,因为 起 点 是 线性 
模型 > 一 xXG 十 wx, 并 利用 最 小 二 乘法 估计 ,而 有 效 系 统 估计 则 利用 系统 GLS 来 获 
得 。 对 于 非 线 性 模型 ,无 论 是 研究 起 点 还 是 估计 方法 ,都 存在 相当 大 的 差异 , 且 研 
完 手段 各 异 。 

将 含有 G 个 因 变 量 的 多 变量 非 线 性 模型 (multivariate nonlinear model) 定 
义 为 : 

rCyi Xi， 3)O—u (6. 103 ) 


其 中 ,y; 与 w 表示 GX1 维 向 量 ,r(y;,X;,B) 表 示 GX1 维 向 量 函 数 ,X; 表示 GXL 
阶 和 矩阵, 而 8 表示 KX1 维 列 问 量 。 本 节 中 ,我 们 自始至终 地 做 出 横 截面 假设 : 误 
差 癌 量 w 对 不 同 i 是 独立 的 ,但 是 ,给 定 : 时 ,u 元 素 可 能 与 随 i 变化 的 方差 及 协 方 
差 相 关 。 

式 (6. 103) 的 一 个 例子 是 非 线 性 看 似 不 相关 回归 模型 Cnonlinear seemingjly 
unrelated regression model) 。 于 是 ,对 N 个 个 体 的 第 i 个 而 言 ,G 个 方程 的 第 g 个 
方程 由 下 去 给 出 : 


ro (Yig 9 入 ip ; 9s) 一 2ir， p=],*** ,Cr (6, 104) 


例如 ,ws 一 ys 一 exp(xis 8,)。 于 是 , 式 (6. 103) 的 与 r(*) 表 示 GX1 维 向 量 , 其 
第 g 个 元 素 为 uis 与 rs(*),X; 表示 与 式 (6. 91) 所 定义 的 矩阵 相同 的 分 块 对 角 和 矩 
阵 , 而 8 是 通过 把 B1 至 Bc 到 放 得 到 的 。 

第 二 个 例子 是 非 线 性 面板 数据 模型 (nonlinear panel data model) 。 于 是 ,对 处 
于 时 期 i 的 个 体 i 来 说 ,有 : 


rlyiasXi DID) 一 rt 一 了 (6. 105 ) 
从 而 , 式 (6. 103) 中 的 与 r(。) 表 示 TX1 维 向 量 , 因 而 G 二 T, 其 第 1 个 元 素 为 wi 
与 r(ya ,Xi ,BB)。 这 种 面板 模型 不 同 于 在 每 一 个 时 期 都 拥有 同样 汪 数 xr(，) 与 参数 
8 的 看 似 不 相关 回归 模型 。 
6. 10.3 非 线 性 系统 舍 夺 
当 模 型 (6. 103) 的 回归 元 X; 都 是 外 生 的 时 ,有 : 
Elu |X,|=0 (6. 106) 


其 中 ,u 表示 模型 (6. 103) 定 义 的 误差 项 。 我 们 假定 误差 项 对 于 不 同 i 是 独立 的 ， 
县 方差 矩 阵 是 : 


0 = ELuwu |X, | / (6. 107) 
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可 加 误差 
当 非 线性 模型 关于 误差 项 是 可 加 的 时 候 , 系 统 估 计 就 是 对 线性 模型 的 系统 
OLS 与 FGLS 估计 的 直接 改进 ,因此 ,对 式 (6. 103)? 进 行 专门 研究 ,得 出 : 
Uy g(X,, 0) (6. 108) 
于 是 ,系统 NLS 估计 量 (systems NLS estimator) 对 残 差 平方 和 2;umum 求 极 小 值 ,而 
系统 FGNLS 估计 量 (systems FGNLS estimator) 则 对 ， 


QB) = > uiu (6. 109) 


求 极 小 值 ,其 中 ,将 @; 设 定 成 模型 Q;(Y) ,并 且 Q 一 Q;(7 了 7)。 为 了 防止 对 92; 可 能 
错误 的 设 定 ,人 们 能 使 用 本 质 上 仅 要 求 n; 是 独立 的 且 满 足 式 (6. 106) 的 稳健 标准 
误差 。 于 是 ,系统 FGNLS 估计 量 的 估计 方差 与 式 (6. 87) 中 线性 系统 FGLS 的 佑 
计 方 差 是 一 样 的 ,只 是 用 9g(y;,B)/3B'13 代 替 X;, 现 在 有 二 y; 一 gC(Xi, B)。 比 较 
简单 系统 NLS 估计 量 的 估计 方差 可 通过 另外 用 代替 和 来 得 到 。 

主要 挑战 是 对 @2; 设 定 一 个 有 用 模型 。 举 一 个 例子 ,假定 要 对 两 个 计数 变量 进 
行 联合 建 模 。 第 20 章 将 证 明 ,一 种 比 泊 松 分 布 模型 稍 从 一 般 性 的 标准 计数 模型 
是 ,将 条 件 均值 设 定 为 exp(xG) ,同时 把 条 件 方差 设 定 为 expC(xG)。 然 后 ,将 联合 
模型 设 定 为 u 二 [ut wz] ,其 中 ,wi 二 yi 一 exp(X1B1) ,ws 二 yz 一 exp(X2 3)。 于 是 ， 
方差 矩阵 ， 具有 对 角 元 双 al exp (Xi es ) 与 az exp(xiz /32 ) ,而 且 对 协 方差 的 一 种 可 
能 参数 化 是 aa[L exp xi es )expl Xi CC ) 。 因 此 ， 要 估计 0, 5 就 需要 四 Bs al as 
以 及 as 的 值 , 而 这 些 值 可 从 第 一 步 单 方程 估计 中 获得 。 

非 可 加 误差 

正如 6. 2. 2 市 在 单方 程 情况 下 所 证 明 的 ,对 非 可 加 误差 而 言 ,最 小 二 乘法 回归 
已 不 再 适用 。 伍 德里 奇 (Wooldridge，2002) 阅 述 了 和 矩 估计 的 一 致 方法 。 

条 件 矩 约束 (6. 106) 产 生 许多 能 用 于 佑 计 的 可 行 无 条 件 的 矩 条 件 。 一 个 明显 
的 起 点 是 ,把 估计 建立 在 矩 条 件 ELXiu;] 二 0 的 基础 上 。 不 过 ,可 使 用 另外 和 矩 条 件 。 
一 般 地 讲 ,考察 建立 在 玉 个 和 矩 条 件 : 

ELRCX ,GD)u 一 0 (6. 110) 


基础 上 的 估计 ,其 中 ,R(X;,B) 表 示 Xi 与 8 的 KXG 阶 窍 阵 函数 。 对 R(X;,B) 进 
行 设 定 , 而 且 可 能 依赖 于 B8, 这 一 点 将 在 下 面 加 以 讨论 。 

由 构造 可 知 , 和 存在 与 参数 同样 多 的 答 条件。 系统 和 矩 方法 估计 量 (system method 
of moment estimator) Avm 求 解 相 应 的 样本 和 矩 条 件 : 


N 
二 > ROCK ,A) ry X,, vm) — 0 (6. 111) 
;一 ] 


其 中 ,R(X;,B) 实 际 上 是 在 第 一 步 估 计 6B 时 计算 出 来 的 。 该 估计 量 服从 渐 近 正 态 
分 布 ,其 方差 矩阵 为 


N N NN 
VB = | DDR| ORGoaR| > RD,| (6. 112) 
i 一 1 i 二 1] i 二 ] 
其 中 ,D; = 93r;/968 ] 有 , 及; 一 及 (X ,3) ;TT ;=r(y;, X;, Bs) o 
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主要 问题 是 对 式 (6. 110) 中 的 R(X, 68) 进行 设 定 。 由 6. 3. 7 节 知 ,建立 在 式 
(6. 106) 基 础 上 的 最 有 效 估计 量 设 定 ， 


R*(X ,9) 一 下 xx]o (6. 113) 


通常 ,如 果 得 出 最 优 估 计 比 较 困 难 , 则 右边 第 一 个 表达 式 需 要 强 分 布 假 设 。 
不 过 ,和 右 非 线性 模型 具有 和 式 (6. 108) 定 义 的 可 加 误差 , 则 可 进行 简化 。 于 是 ， 
R*(X;,B) 一 9g(X;,B) /3BX9 ,并 且 估计 方程 (6. 110) 变 成 


NY 2) EC or (yi 一 X’ Gqum) 一 0 
此 估计 量 渐 近 地 等 价 于 对 式 (6. 109) 求 极 小 值 的 系统 FGNLS 估计 量 。 


6. 10. 4 非 线 糙 系 统 工具 估计 


当 模 型 (6. 103) 中 的 回归 元 X; 是 内 生 的 时 ,ELu|X; jj] 隆 0, 假 定 存 在 GXr 阶 工 
具 和 矩阵 Z; ,使 得 ， 


Elu|Z. |=0 (6. 114) 


其 中 ,um 表示 模型 (6. 103) 定 义 的 误差 项 。 我 们 假定 误差 项 对 于 不 同 i 是 独立 的 ， 
是 方差 矩阵 是 02 二 EL[ww |Z]。 对 非 线性 SUR 模型 来 说 ,Z 如同 式 (6. 99) 所 定义 的 。 

这 个 方法 类 似 于 前 一 节 关 于 系统 十 方法 估计 量 的 那 种 方法 ,具有 额外 的 复杂 
性 , 即 可 能 存在 着 剩余 工具 导致 需要 广义 矩 方法 估计 而 不 是 和 矩 方法 估计 的 情况 。 
条 件 矩 约束 (6. 106) 会 产生 许多 用 于 估计 的 无 条 件 矩 条 件 。 此 外 ,我 们 订 从 把 估计 
建立 在 矩 条 件 ELZiu ] 二 0 基础 上 的 许多 其 他 线索 。 那 么 ,系统 广义 矩 方 法 估计 量 
(systems GMM estimator) 对 1 


N / N 
QNB) 一 | OD TirGyi, XB) | Wy| >) ZirCyi, Xi, BP) (6. 115) 
= t 二 1] i 二 ] 


求 极 小 值 。 此 估计 量 服从 渐 近 正 态 分 布 , 其 估计 方差 为 : 

VLiBsm |=N[D ZWNZD] [DZWNSWNZ DIID’ ZWNZD]’: (6.116) 
其 中 ,D'Z= 2,9r//9B815Z;, 且 S$ 二 N72;Z 和 WZ ,同时 假定 vw 对 不 同 ; 是 独立 的 ， 
其 方差 矩阵 Viu |X;] 二 0,。 

在 从 非 线 性 看 似 不 相关 回归 模型 中 得 到 r(y;,X;,B) 的 情况 下 ,选择 Wn 一 
[N713;ZZ1]! 对 应 于 NL2SLS。 将 选择 Ww 一 [N 1,Z,QZ] : 称 为 非 线性 
3SLS(nonlinear 3SLS, 缩 记 为 NL3SLS) ,并 且 是 在 0 一 0 的 特殊 情况 下 、 建 立 在 
抢 条 件 ELZiu] 王 0 基础 上 的 最 有 效 估计 量 ,其 中 ,0 一 N77! ;yy。 在 更 一 般 的 假 
设 下 , 即 Q@ 随 不 同 i 而 变化 ,选择 Ww 二 S ! 会 得 出 最 有 效 估 计量 。 不 过 ,与 以 往 一 
样 ,通过 矩 条 件 而 不 是 ELZiu;]= 二 0, 会 得 出 更 有 效 的 估计 量 。 


6. 10. 5 “ 非 线性 联 立 方程 组 
非 线 性 联 立 方程 模型 (nonlinear simultaneous equations model) 设 定 如 下 ,对 于 
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NN 个 个 体 的 第 i 个 , 设 定 G 个 方程 的 第 g 个 由 下 式 给 出 : 
zir 一 TeCYiyXir , (9s),， g=1,* ,CG (6, 117) 


这 是 具有 包括 来 目 其 他 方程 因 变 量 的 回归 元 的 非 线性 看 似 不 相关 回归 模型 。 与 线 
性 联 立 方程 模型 不 同 , 从 应 用 上 看 ,确保 非 线 性 联 立 方程 模型 是 可 识别 的 结果 
很 少 。 

已 知识 别 ,利用 前 一 节 阐 述 的 广义 矩 方法 估计 量 获得 一 致 估计 值 。 或 者 ,我 们 
假定 到 一 人 0, ,从 而 得 到 非 线 性 完全 信息 极 大 似 然 估计 量 Cnonlinear full- 
information maximum likelihood estimator) 。 对 背离 线性 联 立 方程 模型 的 情 部 来 
说 ,通常 非 线 性 完全 信息 MLE 具有 不 同 于 NL3SLS 的 渐 近 分 布 ,同时 非 线 性 完全 

吝 奶 极 大 似 然 估计 要 求 ,误差 项 在 本 质 上 服从 正 态 分 布 。 有 关 详 细 内 容 , 参 见 雨 宫 
(Amemiya, 1985), 

处 置 非 线 性 模型 的 内 生性 极为 复杂 。16. 8 节 将 考察 Tobit 模型 中 的 联 立 性 
(simultaneity) , 当 模 型 关于 潜 变 量 是 线性 的 时 候 , 分 析 起 来 比较 简单 。20. 6. 2 节 
考察 一 种 高 度 非 线性 的 例子 , 即 计数 数据 模型 中 的 内 生 回 归 元 。 


6. 11 应 用 研究 


理想 上 ,利用 经 济 计 量 软 件 包 能 实施 广义 矩 方法 ,这 样 就 不 会 遇 到 更 多 的 困 
难 , 也 不 会 需要 更 多 的 知识 ,例如 ,具有 腊 方差 误差 的 非 线 性 最 小 二 乘法 估计 。 然 
而 ,不 是 所 有 的 重要 经 济 计 量 软件 包 都 能 提供 广泛 的 广义 和 抢 方 法 模块 。 依 据 特定 
应 用 ,需要 将 广义 矩 方法 估计 转换 成 一 种 更 合适 的 软件 包 , 或 者 使 用 具有 广义 矩 方 
法 代数 运算 的 矩阵 程序 。 

广义 矩 方 法 的 一 种 普遍 应 用 是 工具 变量 估计 。 大 多 数 经 济 计量 学 软件 包 涉 及 
线性 工具 变量 佑 计量 ,但 不 是 所 有 的 软件 包 都 涵盖 非 线性 工具 变量 估计 量 。 默 认 
标准 误差 可 能 假定 同方 差 误差 ,而 不 是 异 方差 稳健 的 。 正 如 第 4 章 强 调 的 ,很 难 获 
得 与 误差 项 不 相关 但 与 回归 元 非常 相关 的 工具 ,或 者 ,在 非 线 性 情况 条 件 下 ,很 难 
获得 有 关 参 数 的 对 误差 的 适当 推导 。 

经 济 计量 学 软件 包 通 稼 包含 线性 方程 组 , 却 不 包含 非 线 性 方程 组 。 并 且 ,默认 
标准 误差 对 异 方差 性 来 说 ,可 能 不 是 稳健 的 。 


6. 12 ”文献 注释 


对 广义 矩 方 法 进行 研究 的 教科 书 , 包括 戴维森 和 麦 金 龙 (Davidson and 
MacKinnon，1993，2004)、 哈 密 尔 顿 (Hamilton，2004) 以 及 格林 (Green，2003 ) 。 
最 近 , 由 林 文 夫 (Hayashi1，2005) 与 伍德 里 奇 (Wooldridge，2002) 所 撰写 的 书 特别 
强调 广义 矩 方法 估计 。 贝 拉 和 比 林 阿 斯 (Bera and Bilias，2002) 给 出 本 书 第 5 章 和 
第 6 章 曾 述 的 一 些 估计 量 的 综述 及 历史 。 

6.3 广义 定 方 法 的 原创 性 文献 是 汉 条 CHansen，1982) 的 论文 。 阿 雷 拉 详 
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(Arellano，2003) 的 《面板 数据 的 经 济 计量 学 ?附录 ,给 出 关于 广义 矩 方法 最 优 矩 的 
一 个 很 好 的 解释 。《 商 业 和 经 济 统 计 学 杂志 》(Journral of Business and Economic 
Statistics )2002 年 10 月 份 专刊 致力 于 GMM 估计 。 

6.4 陕 根 (Sargan，1958) 对 线性 工具 变量 估计 的 经 典 研究 是 广义 矩 方法 的 
重要 前 身 。 

6.5 由 雨 官 (Amemiya，1974) 引 入 的 非 线性 2SLS 估计 量 ,很 容易 被 推广 到 
三 义 矩 方 法 估计 量 ，。 

6.6 时 序 两 阶段 估计 的 标准 参考 文献 是 纽 书 (Newey，1984) 、 托 佩 尔 和 墨 非 
(Murphy and Topel，1985) 以 及 帕 甘 (Pagan，1986) 的 论文 。 

6.7 最 小 中 离 估 计 的 标准 参考 文献 是 张伯伦 (Chamberlain，1982) 的 论文 。 

6.8 对 经 验 似 然 估 计 和 做 出 的 良好 概述 ,由 米 特 尔 哈 默 、 贾 奇 和 米 勒 (Mittel- 
hammer, Judge and Miller，2000) 提 供 , 重 要 参考 文献 是 欧文 (Owen，1988，2001) 
以 及 勤 和 劳 利 斯 (Qin and Lawless，1994) 的 论文 。 黄 伯 斯 (Imnbens，2002) 给 出 这 
种 相对 新 新 方法 的 评论 及 应 用 。 

6.9 例如 ,格林 (Greene，2003) 的 教科 书 提供 了 比 此 处 内 容 更 详细 的 关于 系 
统 估计 的 概述 ,特别 是 关于 线性 看 似 不 相关 回归 与 线性 联 立 方程 模型 。 

6. 10 ” 雨 宫 (Amemiya，1985) 详 细 地 阅 述 了 非 线 性 联 立 方程 。 


习 题 


6-1 考察 习题 5.2 的 伽 玛 回归 模型 ,有 E[y|jx] 二 exp(x BG) 月 V[y|x]= 
(explx BG))’/2, 

(a) 证 明 这 些 条 件 葡 含 ELx((y 一 exp(x BB))? 一 (exp(xB)):/2})] 二 0。 

(b) 使 用 (a) 部 分 的 矩 条 件 ,建立 矩 方法 估计 量 Bs。 

(c) 利用 结果 (6. 13) ,给 出 GBmw 的 渐 近 分 布 。 

(d) 除 (a) 部 分 之 外 ,假定 还 可 以 利用 矩 条 件 ELx(y 一 exp(xG))] 王 0。 给 出 好 
的 广义 拖 方 法 估计 量 的 目标 困 数 。 

6-2 考察 对 于 不 同 i, 数据 独立 的 线性 回归 模型 , y; 二 xiB 十 u;。 假 定 
El w; |x; | 尖 0 ,但 存在 着 满足 E[ ze |z; | 二 0 且 V| ua; |z; 二 os; 的 可 利用 的 工具 了 z ,其 
中 ,dim(z) 守 dim(x)。 求 极 小 化 


QNB) = [NT ozCy — XB) | WoLN DC 一 GD) 


的 广义 矩 方法 估计 量 。 
(a) 利用 一 般 的 广义 矩 方法 结果 (6. 11) ,推导 VC- Bo) 的 极限 分 布 。 
(b) 阐述 如 何 获 得 的 渐 近 方差 的 一 致 估计 值 。 
(c) 如 果 误 差 是 同方 差 的 ,你 会 使 用 Wn 的 哪 种 选择 ? 请 解释 你 的 解答 。 
(d) 如 果 误 差 是 异 方差 的 ,你 会 使 用 Wn 的 鄂 种 选取 ? 请 解释 你 的 解答 。 
6-3 考察 6.3.6 节 末尾 处 拉 普 拉 斯 唯一 截 距 的 例子 ,因而 有 > 一 “十 wx。 于 是 ， 
广义 矩 方法 估计 建立 在 E[h(y)]=0 的 基础 上 ,其 中 ,hw)==[Cy 一 /0) ,Cy 一 0)3]。 
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(a) 利用 6. 3. 6 节 给 出 的 中 心 矩 知识 ,证 明 G6 二 EL9h/9yj 二 [一 1, 一 6 ,并且 
So 一 ELhh ] 具 有 对 角 元 素 2 与 720 ,而 非 对 角 元 素 为 24。 

(b) 证 明 GoS 'Go 二 252/432 。 

(c) 证 明 /Aocwws 具 有 渐 近 方差 1.71437N。 

(d) 证 明 满 足 W= 王 的 的 广义 矩 方 法 估计 量具 有 渐 近 方差 19. 14/N。 

6-4 这 个 问题 使 用 probit 模型 ,但 需要 很 少 的 模型 知识 。 设 y 表示 依据 事 
件 是 否 发 生 而 取 值 为 0 或 1 的 二 全 变量 , 设 x 表 示 回 归 元 回 量 ,并 且 假 定 独 立 观 
测 值 。 

(a) 假定 ELy|xj= 二 ®@(x B), 其 中 ,@(:) 表 示 标 准 正 态 cdf。 证 明 EL[(y 一 
P(x B))xj] 一 0。 从 而 给 出 8 的 矩 方法 的 估计 方程 。 

(b) 这 个 估计 量 将 会 产生 与 probit 极 大 似 然 估 计 相 同 的 估计 值 吗 ? (对 于 这 
部 分 内 容 来 说 ,你 只 需要 阅读 14. 3 节 。) 

(c) 给 出 (a) 部 分 中 的 广义 和 矩 方 法 目标 吗 数 。 也 就 是 说 ,给 出 可 产生 相同 一 阶 
条 件 的 目标 函数 ,直到 满 秩 的 矩阵 变换 ,就 像 在 (a) 部 分 获得 的 那样 。 

(d) 假定 由 于 某 些 元 素 的 内 生性 ,ELy|xj 和 @(Cx B8)。 假定 存在 一 个 向 量 z， 
dim[ zj 之 dimLxj] ,使 得 ELy 一 画 (x B8)|zj 二 0。 给 出 B 的 一 致 佑 计量 的 目标 函数 。 
此 估计 量 并 不 需要 是 完全 有 效 的 。 

(e) 对 (d) 部 分 所 获得 的 佑 计量 来 说 ,给 出 其 渐 近 分 布 。 为 了 得 到 此 结果 ,人 氢 
述 你 对 数据 生成 过 程 做 出 的 任何 假设 。 

(f) 对 Cd) 部 分 的 最 优 广 义 抵 方法 佑 计量 来 说 ,给 出 加 权 和 矩阵 ,并 且 计 算 它 的 
方法 。 

(g) 给 出 Cd) 部 分 的 一 个 真实 情况 的 例子 。 也 就 是 说 ,给 出 具有 内 生 回 妇 元 与 
有 效 工 具 的 probit 模型 的 一 个 有 意义 的 例 握 。 叙 述 用 作 人 允许 进行 一 致 估计 的 因 变 
量 .内 生 回 归 元 以 及 工具 。( 令 人 意 想 不 到 的 是 ,这 部 分 很 难 。) 

6-S 假定 采用 约束 ELw 一 g(9) ,其 中 ,dim[ wj]>>diml 81。 

(a) 求 广 义 宛 方法 估计 量 的 目标 郴 数 。 

(b) 求 满足 x 二 ELw; ] 和 元 三 市 的 最 小 距离 估计 量 的 目标 函数 (人 参见 6.7 节 ) 。 

(c) 证 明 在 这 个 例子 中 ,最 小 距离 方法 与 广义 矩 方法 是 等 价 的 。 

6-6 最 小 距离 估计 量 (参见 6. 7 节 ) 运 用 约束 x 一 g(0) 一 0。 更 一 般 地 讲 , 假 
定 约束 为 h(0,7) 二 0, 并 利用 广义 最 小 距离 估计 量 来 进行 知 计 , 即 对 QN (9) 二 h(0， 
刘 ) Wwh(8, 刘 ) 求 极 小 值 。 利 用 式 (6. 68) 一 (6. 70) 证 明 , 当 Go 二 9h(0, 7x)/9010.。 
且 用 于 VL[ 直 ]H 代替 V[ 计 J 时 , 式 (6. 67) 成 立 , 其 中 HL 二 9h(0,7)/a3r|e.,。 

6-7 利用 6.6.4 节 给 出 的 数据 生成 过 程 所 生成 的 数据 ,六 二 1 000, 求 
NL2SLS 估计 值 , 并 且 将 这 些 值 与 两 阶段 估计 值 加 以 比较 。 
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7.1 5 引 论 


本 章 考 察 参 数 可 能 为 非 线 性 的 假设 检验 ,其 中 利用 了 适合 于 非 线 性 模型 的 估 
计量 。 

检验 统计 量 的 分 布 可 利用 与 用 于 分 析 估 计量 的 相同 的 统计 理论 来 获得 ,这 是 
因为 像 估计 量 一 样 的 检验 统计 量 仍然 是 一 个 统计 量 , 也 就 是 样本 的 函数 。 给 定 佑 
计量 与 假设 的 适当 线性 化 ,其 结果 非常 类 似 于 线性 回归 模型 对 线性 约束 所 进行 的 
那些 检验 。 不 过 ,结果 却 依赖 于 渐 近 理论 ,同时 在 正 态 性 下 ,线性 模型 的 准确 1 分 
布 与 下 分 布 的 检验 统计 量 要 被 用 作 渐 近 标 准 正 态 分 布 (z 检验 ) 或 卡 方 分 布 的 检验 
统计 量 来 代替 。 / 

在 实施 假设 检验 时 ,实际 应 用 中 存在 两 个 重要 的 担心 。 首 先 ,检验 可 能 具有 错 
误 水 平 , 因 而 在 一 种 名 义 显 著 性 譬如 5% 上 进行 检验 时 ,对 零 假 设 拒 绝 的 真实 概率 
很 可 能 大 于 5%。 当 基本 渐 近 分 布 理论 只 是 一 种 近似 时 ,这 种 错误 水 平 在 适度 水 
平 的 样本 中 几乎 一 定 会 产生 。 一 种 纠正 方法 是 本 章 将 引进 的 自助 法 ,第 11 章 将 重 
氮 而 广泛 地 对 目 助 法 加 以 研究 。 其 次 ,一 些 检验 可 能 具有 低 势 "11(low power), 因 
此 , 当 应 该 拒绝 零 假 设 时 , 却 存 在 很 小 概率 拒绝 零 假 设 。 和 大 多 数 教科 书 对 检验 的 
人 研究 相 比 ,本 章 更 加 强调 对 水 平 与 势 的 研究 。 

最 广泛 运用 的 检验 方法 231(procedure) 即 沃 尔 德 检验 由 7. 2 节 加 以 定义 。 另 
外 , 当 利 用 极 大 似 然 估计 时 ,7. 3 节 阐 述 似 然 比 检验 与 得 分 检验 ,或 者 拉 格 朗 日 乘 
子 检验 。7. 4 节 对 各 种 检验 举例 说 明 。7. 5 节 把 这 些 检验 扩展 到 估计 量 而 不 是 极 
大 似 然 上 ,包括 稳健 检验 形式 。7.6 节 、7.7 节 和 7.8 节 则 分 别 阐述 检验 势 、 蒙 特 卡 
罗 模 拟 方 法 以 及 自助 法 。 

第 8 章 将 独立 地 给 出 对 模型 设 定 以 及 选择 的 一 些 方法 ,而 不 涉及 假设 检验 本 
身 的 研究 。 


[C12 又 称 为 低 功 效 。 一 一 译 者 注 
[C22] 又 称 为 程序 。 一 一 译 者 注 


微观 经 济 计量 学 


i 


7.2 沃 尔 德 检验 


归功 于 沃 尔 德 CWald, 1943) 的 沃 尔 德 检验 ,是 微观 经 济 计量 学 中 一 个 极为 出 
色 的 假设 检验 。 它 需要 对 无 约束 模型 进行 估计 ,也 就 是 说 ,没有 利用 零 假设 约束 的 
模型 。 沃 尔 德 检验 的 应 用 相当 广泛 ,因为 人 们 通常 利用 现代 软件 对 无 约束 模型 进 
行 估计 ,即使 无 约束 模型 比 约束 模型 更 为 复杂 ,而 且 日 益 发 展 的 现代 软件 提供 了 在 
相对 弱 分 布 的 假设 下 允许 沃 尔 德 检验 的 稳健 方差 矩阵 估计 值 。 运 用 计算 机 软件 报 
告 出 的 对 回归 元 统计 显著 性 进行 检验 的 通常 统计 量 , 就 是 沃 尔 德 检验 统计 量 的 一 
个 例子 。 

本 厄 详 细 闻 述 非 线性 假设 的 沃 尔 德 检验 , 既 阐 述 理 论 又 给 出 说 明 例 子 。 并 且 ， 
图 述 与 8 方法 密切 联系 的 .用 于 构建 参数 的 非 线性 函数 的 置信 区 间或 者 置信 区 域 
的 方法 。 本 节 末 尾 将 话 述 沃 尔 德 检验 的 弱点 , 即 对 于 在 代数 形式 上 等 价 的 零 假 设 
参数 化 来 说 , 它 缺 乏 不 变性 。 
7. 2.1 线性 模型 的 线性 假设 

首先 ,回顾 标准 的 线性 模型 结果 ,这 是 因为 , 沃 尔 德 检验 是 对 线性 回归 模型 的 
线性 约束 进行 通常 检验 的 推广 。 

在 线性 回归 模型 y 二 X68 十 u 中 ,关于 回归 参数 的 线性 约束 的 双 侧 检验 的 零 假 
设 与 备 选 假设 分 别 是 : 

Ho: RBo—r=0 
H,: RBo—rA0 

这 里 所 用 记号 表示 有 个 约束 ,R 表示 满 秩 h 的 hxXxK 阶 常 值 矩阵 ,9 表示 天 义 1 
维 参 数 问 量 ,r 表示 hX1 维 常 值 向 量 ,而 且 h 寺 KK。 

例如 , 当 二 4 时 ,联合 检验 Bi 二 1 入 一 BB 二 2 能 表述 成 式 (7. 1) ,满足 : 


1 0 0 0 1 
R 一 | 。 1 一 1 ,| "=| ,| 
RBo 一 r 二 0 的 沃 尔 德 检验 是 对 样本 类 似 形式 R 8 一 r 接近 于 0 的 检验 ,其 中 , 9 表 


示 无 约束 OLS 估计 量 。 在 u 一 NA [0,olI1] 的 强 假设 下 ,估计 量 86~N [8，， 
oz (XXX) :| ,因此 ,在 互 , 下, 有: 


RB—r~NMN[0,c:RCX’X) 1R’ 
其 中 ,RBo 一 r= 二 0 被 简化 成 0 的 均值 。 当 取 二 次 形式 时 ,得 到 检验 统计 量 : 
Wi=(RO—n [oRCX XX) IR | RO—r) 


《7. 1) 


在 本 , 下 ,该 统计 量 确实 服从 X (4) 分布 。 不 过 ,在 实际 应 用 中 ,并 不 能 计算 出 检验 
统计 量 Wi ,因为 是 未 知 的 。 
在 大 样本 中 ,oz? 用 它 的 估计 值 代替 ,并 不 会 影响 到 Wi 的 极限 分 布 ,因为 这 
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等 价 于 用 o/s 左 乘 Wi ,并 且 plim(o2/s:) 二 1( 参 见 变 换 定 理 A. 12) 。 因 此 ,下 式 
W;:=(RO—r) [sR(XX) RRO—7) (7. 2) 


收敛 到 Ho。 下 的 XX (4) 分 布 。 

检验 统计 量 W; 仅 在 渐 近 形式 下 服从 卡 方 分 布 。 在 这 种 带 有 正 态 误差 的 线性 
例子 中 ,能 获得 一 种 可 供 选 择 的 准确 的 小 样本 结果 。 许 多 引 论 教科 书 所 推导 的 标 
准 结果 是 ,在 Ho 下 , 乔 一 (N 一 天 ) ”1 2); u; ;出 | 


W,=W,/h 


服从 F(h,N 一 K) 分 布 ,其 中 ,tz 表示 OLS 残 差 。 这 就 是 人 们 熟悉 的 下 检验 统计 
量 ( 广 test stastistic) , 它 时 和 常 以 残 差 平方 和 的 形式 重新 表示 。 

在 非 线性 模型 中 ,甚至 在 线性 模型 中 ,要 得 出 譬如 Ws 的 准确 结果 是 不 可 能 
的 ,因为 它们 需要 非常 强 的 假设 。 相 反 , 利 用 W: 的 非 线 性 类 似 形式 ,并 且 其 分 布 
结果 只 是 渐 近 形式 。 


7.2.2 非 线 性 假 庶 


考察 gX 1 维 参 数 癌 量 9 的 关于 参数 可 能 为 非 线 性 (nonlinear in parameters) 
的 个 约束 假设 检验 ,其 中 ,hq。 对 线性 回归 来 说 ,8 二 8 日 9 二 KK。 
双 侧 零 假 设 与 备 选 假设 分 别 是 : 
Ho : h‘0) sk | 
H,: h(0)0 


其 中 ,hl*) 表 示 08 的 hX1 维 同 量 东 数 。 注 意 到 ,h(0) 在 本 章 用 于 表示 零 假设 约束 ， 
这 里 不 应 与 前 一 章 用 于 表示 构建 矩 方法 估计 量 或 广义 矩 方 法 估计 量 的 和 矩 条 件 的 
hCw,0) 相 混淆 。 

熟悉 的 线性 例子 包括 对 单个 系数 h(0) 二 9, = 二 0 的 统计 显著 性 检验 ,以 及 对 系 
数 子 集 h(0) = 二 8; 二 0 的 检验 。 一 个 非 线 性 的 单个 约束 是 (0) 二 0.1/9s 一 1 二 0。 后 
面 几 节 将 对 这 些 例子 加 以 研究 。 

假定 h(0) 使 得 hxXg 阶 和 矩阵 : 


(7. 3) 


R(O) 一 人 (7.4) 


在 9 一 0 处 进行 计算 时 ,具有 满 秩 h ,该 假设 等 价 于 线性 模型 中 约束 的 线性 独立 性 ， 
在 这 种 情况 下 ,R(0) 一 R 并 不 依赖 于 98 且 具 有 满 秩 h。 假 定 在 零 假设 下 ,参数 没有 
位 于 参数 空间 的 边界 上 (boundary of the parameter space) 。 这 就 是 剔除 了 当 模 型 
需要 0 之 0 时 对 五。: 0 二 0 进行 检验 的 情形 。 
7. 2.3 淆 尔 德 检验 统计 最 

支持 沃 尔 德 检验 的 直觉 极为 简单 。 对 h(6 ) 王 0 是 否 成 立 的 一 个 明显 检验 ,是 在 
没有 利用 约束 时 获得 8 ,然后 查看 h(0 ) 一 0。 若 在 H, 下 , h(6 )~~NN[0,V[h(0 )]]， 
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则 检验 统计 量 为 : 
W 一 hCO) [VEhC6 7)] -hCGB )~X Ch) 
这 里 的 唯一 困难 是 求 VLh(6 )], 它 将 依赖 于 约束 h(.) 和 估计 量 6 。 

在 零 假设 下 ,由 一 阶 泰勒 级 数 展开 式 ( 参 见 7.2.4 节 ) 可 知 ,h(g ) 具 有 与 
RC(9o) (9 一 各) 相同 的 极限 分 布 , 其 中 ,R(9) 由 式 (7.4) 定 义 。 于 是 ,在 H, 下 ,h(6) 
服从 渐 近 正 态 分 布 ,其 均值 为 0 ,方差 矩 阵 为 RC(06)V[6 ]R(Ce)' 。 一 致 估计 值 是 
RN ICR' ,其 中 ,R 王 R(C6 ) ,假定 估计 量 8 是 vV 一 致 的 ,满足 ， 


VN(O —0,) > N[0,C,] (7. 5) 
而 C 表示 Ce 的 任何 一 致 估计 值 。 
沃 尔 德 检验 的 普遍 形式 
由 前 面 讨论 ,得 到 沃 尔 德 检验 统计 量 (Wald test statistic ) : 
W= Nh [RCR’]-'h (7. 6) 


其 中 ,h 一 h(0 ) 且 R 一 9h(0)/99 1;。 一 个 等 价 表达 式 是 W= 二 RCRV[6 RR']-'h, 其 
中 ,V[6 ]=N7'C 表示 6 的 估计 渐 近 方差 。 

在 H, 下 ,检验 统计 量 W 渐 近 服从 X (h) 分 布 。 因 此 , 当 W>>X (4) 时 ,在 显著 
水 平 a 下 ,拒绝 对 应 于 日 , 的 互 。; 和 否则 ,不 能 拒绝 HH,。 等 价 地 讲 , 当 pp 值 (p-value) 
小 于 a 时 , 即 p 值 等 于 Pr[X (4) 宝 W], 在 水 平 a 就 拒绝 H,。 


人 们 还 能 把 沃 尔 德 检验 统计 量 处 理 成 为 下 检验 。 沃 尔 德 渐 近 下 统计 量 (Wald 
asymptotic F-statistic) 


F—=W/h (7.7) 


渐 近 地 服从 F(h,N 一 gq) 分 布 。 这 就 得 出 与 式 (7.6) 中 当 N 一 oo 时 的 W 相同 的 p 
值 ,尽管 在 有 限 样本 下 ,p 值 将 会 不 一 样 。 对 非 线 性 模型 来 说 ,最 普遍 报告 的 是 W， 
虽然 下 也 时 常用 于 小 样本 中 ,期 待 它 提供 较 好 的 近似 。 

对 仅 有 单个 约束 的 检验 来 说 , 沃 尔 德 卡 方 检验 的 平方 根 是 标准 正 态 检验 统计 
量 。 该 纺 有 果 人 允许 对 单 侧 假设 进行 检验 , 故 它 十 分 有 有 用。 具体 地 讲 , 对 于 纯 量 h(0)， 
沃 尔 德 x 检验 统计 量 (Wald z-test statistic ) 是 : 

hh 
W, A (7. 8) 

其 中 ,一 Ag ), 而 f= 二 9h(0)/90 1; 表示 1 Xk 维 向量 。 结 果 (7. 6) 意 味 着 ,W, 在 
Ho 下 服从 渐 近 标准 正 态 分 布 。 等 价 地 讲 , W, 渐 近 服从 + 分 布 ,其 自由 度 为 
(CN 一 gq) ,因为 当 N->co 时 ,t 是 趋 于 正 态 的 。 因 此 , W, 也 可 作为 沃 尔 德 1 检验 统 
计量 。 

讨论 

非 线 性 情况 下 的 沃 尔 德 检验 统计 量 (7. 6) 与 线性 模型 情况 下 由 式 (7. 2) 给 出 的 
统计 量 W; 具有 同样 形式 。 源 自 零 假 设 的 估计 偏差 是 h(b ) 而 不 是 (RB 一 r)。 和 矩阵 
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R 由 估计 导数 和 矩阵 R 代替 ,而 R 是 满 秩 的 假设 则 由 Ro。 是 满 秩 的 假设 代替 。 最 后 ， 
估计 量 的 估计 渐 近 方差 是 NIC, 而 不 是 ?2 (X X) i。 

Co 的 一 致 估计 值 存在 一 个 范围 (参见 5. 5. 2 节 ) ,实际 应 用 时 会 得 到 渐 近 等 价 
的 WF 或 W, 的 各 种 不 同 计算 值 。 特 别 地 ,Co 经 常 具 有 三 明治 形式 A BoA，， 
通过 稳健 估计 值 A-! BA- :一致 地 得 到 估计 。 沃 尔 德 检验 的 优点 是 ,在 相对 弱 分 布 
的 假设 一 一 比如 潜在 异 方差 误差 条 件 一 -一 下 ,很 容易 强 有 力 地 确保 有 效 统 计 推 断 。 

对 于 双 侧 检验 ,W.、W 或 下 傅 大 , 则 愈 可 能 拒绝 五。 进一步 情况 会 发 生 , 即 
h(0 ) 源 自 零 假设 值 0; 估 计量 9 越 有 效 ,C 就 会 越 小 ; 当 样 本 量 越 大 , 则 N 7! 越 小 。 
这 是 当 样 本 量 增 大 并 且 在 不 改变 显著 性 水 平 a 时 进行 检验 的 结果 。 原 则 上 讲 , 当 
样本 量 增 大 时 ,就 能 减 小 we。 完全 参数 模型 的 此 类 不 利 结果 将 在 8. 5 厄 阐 述 。 


7.2.4 活 尔 德 统 太 量 推 时 


得 到 : 


< ah ~ 
h(0 )=h(0) Ty ot (0 —0.6) 
由 此 可 得 : 
VN(hO0)—h(0,))=R(O+* )VN(O —0,) 
其 中 ,R(9) 已 由 式 (7. 4) 定 义 , 进 而 得 到 


VN(h(0 )—h(0,)) S$ N[0,RCR’] (7. 9) 


当 RC(91) RR 一 R(0,) 时 ,这 里 直接 应 用 极限 正 态 乘积 法 则 (定理 A. 7) ,同时 利用 
由 式 (7.5) 给 出 的 VN( 一 0,) 极 限 分 布 。 
在 零 假设 下 ,由 于 h(6) 一 0, 所 以 式 (7.9) 得 以 简化 , 故 在 五 。 下 ,有 : 

VNh(6) > NI[0,R,C,R’) (7. 10) 
在 理论 上 ,人 们 能 使 用 多 元 变量 正 态 分 布 定 义 拒绝 区 域 ,但 一 种 更 简单 的 方法 是 变 
换 成 卡 方 分 布 。 回 顾 z 一 NM[0 ,Q],Q 是 满 秩 的 ,这 蕴含 zz (dim(0))， 
从 而 ,在 互 , 下 ,由 式 (7. 10) 得 出 : 

Nh(6 )' [RCR heO ) Sx’ Ch) 

由 Ro 与 G 均 是 满 秩 的 假设 ,此 表达 式 中 的 矩阵 逆 存 在 。 当 Ro 与 Ce 均 由 其 一 致 
估计 值 代 蔡 后 ,就 获得 由 式 (7. 6) 定 义 的 沃 尔 德 统 计量 。 
7.2.5 沃 尔 德 检验 例子 


最 普遍 的 检验 是 对 一 个 或 多 个 排除 性 约束 进行 检验 。 我 们 还 提供 对 非 线 性 仿 
设 进行 检验 的 一 个 例子 。 
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对 排除 性 约束 检验 
考察 排除 性 约束 , 即 9 的 最 后 h 个 分 量 等 于 0。 进 而 ,h(0) 二 90; 二 0, 这 里 ,把 8 
分 割 成 6 二 (01,09;) 。 由 此 可 得 : 


oh(0) Top， dog 
0 一 |58 0 bh] 


其 中 ,0 表示 (Cd 一 站 Xg 阶 零 矩阵 ,I 表示 有 hXh 阶 单位 阵 , 从 而 有 : 


R(0) 二 


RCOCO )RCO) 一 [0 1 ]| 一 | |=c 
TC, CjLL 


因此 ,排除 性 约束 (exclusion restrictions) 的 沃 尔 德 检验 统计 是 ， 
W=Q@[N- !C,| 10， C7.11) 


其 中 ,NCzs 二 V[8@s], 且 在 Ho。 下 渐 近 服从 X(h) 分 布 。 

该 检验 统计 量 是 关于 线性 回归 模型 对 回归 元 子 集 进行 检验 的 推广 。 人 倘若 误 差 
服从 正 态 分 布 且 可 使 用 有 关 的 下 检验 , 则 在 这 种 情况 下 就 可 利用 小 样本 结果 ， 

统计 显著 性 检验 

单个 系数 的 显著 性 检验 (tests of significance of a single coefficient) 是 对 69 的 第 
7 个 分 量 0, 是 否 异 于 零 进 行 检验 。 于 是 ,h(8) = 二 0,,r(0) = 二 34/9398 表示 除 第 7 个 元 
素 为 1 之 外 其 余 都 为 0 的 向 量 ,因此 , 式 (7. 8) 被 简化 为 : 


W, = 证 (7. 12) 

其 中 ,se[0;] 二 VN ci 表示 0 的 标准 误差 ,而 6 表示 C 的 第 j 个 对 角 元 素 。 

归 因 于 在 正 态 性 条 件 下 线性 回归 模型 的 结果 , 式 (7. 12) 中 的 检验 统计 量 也 经 
弟 被 称 为 “it 统计 量 ”, 但 严格 地 讲 . 它 是 渐 近 “xz 统计 量 ”(z-statistic)。 

对 五, 的 双 侧 检验 (tworsided test) 来 说 ,五 o: 0 二 0 对 应 于 日 ,: 0o 天 0, 当 
[WwW > 在 显著 性 水 乎 cc 上 拒绝 万 。, 否 则 就 不 能 拒绝 万 ,。 这 就 得 出 与 沃 尔 德 
卡 方 检验 完全 一 致 的 结果 ,这 是 因为 Wi 一 W, 其 中 ,W 已 由 式 (7.6) 定 义 , 且 zs 一 
X (1). 

关于 6 符号 ,经 常 存 在 先 验 信 息 。 因 此 ,应 使 用 单 侧 假设 检验 Cone-sided hy- 
pothesis test) 。 例 如 ,假定 6 >0 被 认为 是 建立 在 经 济 推 理 或 者 过 去 研究 的 基础 
上 。 设 定 0 >0 是 零 假 设 还 是 备 选 假设 ,这 是 有 差异 的 。 对 于 单 侧 检验 来 说 ,一 种 
习惯 做 法 是 对 所 做 出 的 判断 设 定 为 备 选 假设 ,因为 可 以 证 明 , 文 持 该 判断 需要 较 强 
的 证 据 。 在 显著 性 水 平 a 上 , 当 W.>z” ,就 拒绝 五 .: bo 二 0 对 应 于 Ho: 0o 委 0。 
类 似 地 ,判断 9 二 0 时 ,在 显著 性 水 平 a 上 ,对 Ho: 9 之 0 对 应 于 H: 0 二 0 进行 
检验 , 当 允 .一 一 时 ,就 拒绝 互 ,。 

对 双 侧 检验 来 说 ,通常 计算 机 会 输出 p 值 ,但 是 在 许多 情况 下 ,一 种 更 合适 的 
方法 是 使 用 单 侧 检 验 。 若 6; 具有 “正确 ”的 符号 , 则 单 侧 检 验 p 值 就 是 所 报告 的 双 
侧 检 验 值 的 一 半 。 


非 线 性 约束 检验 
考察 单个 非 线 性 约束 的 检验 : 


Ho,: h(8)=0/0,—1=0 


于 是 ,R(0) 表 示 1 Xg 维 向 量 , 其 第 一 元 素 为 9h /ab 二 1/6, ,第 二 个 元 素 为 9h/90, 一 
一 01/F ,而 其 余 元 素 均 为 零 。 通 过 设 6i 表示 CC 的 第 jk 个 元 素 , 那 么 式 (7. 6) 变 成 ， 


8 2 ] fh C1 Cl 170， 
二 二 < 一 一 一 一 —~l ~ ~ a 有 2 
WS=N (5 1) | F 0 | a 2 01/0; 
: : *. 0 














其 中 ,0 表示 (9 一 2) Xg 阶 等 矩阵 ,从 而 得 到 . 

W= N[0; (0 一 9) 了 (066 —20.0612 + O02c22) ! (7. 13) 
在 Ho。 下,W 渐 近 服从 X (1) 分 布 。 等 价 地 讲 , Vv 多 渐 近 服从 标准 正 态 分 布 。 
7.2.6 销 误 设 定 模型 的 检验 


假设 检验 的 大 部 分 研究 内 容 , 包 括 本 书 第 7 章 和 第 8 章 给 出 的 内 容 , 和 都 假定 除 
相对 极 少 的 并 不 会 影响 们 计量 一 致 性 的 错误 设 定 且 稳健 的 标准 误差 之 外 , 零 假设 
模型 均 是 正确 设 定 的 。 

实际 上 ,这 是 过 分 简化 的 情况 。 例 如 ,在 对 异 方 差 误差 进行 检验 时 ,假定 这 是 
回归 不 充分 的 唯一 情况 。 可 是 , 当 条 件 均值 被 错误 设 定 ,检验 的 真实 水 平 将 不 同 于 
名 义 水 平 ,其 至 也 不 同 于 渐 近 和 情况。 男 外 ,检验 的 渐 近 等 价 性 ,请 如 沃 尔 德 检验 、 似 
然 比 检验 以 及 拉 格 朗 日 乘 子 检验 ,都 将 不 再 成 立 。 不 过 ,模型 设 定 得 越 好 ,检验 就 
越 有 用 。 

同样 地 ,注意 到 一 些 检 验 经 常 具 有 对 应 于 假设 不 是 以 显 形 方式 表述 的 备 选 假 
设 的 某 种 势 。 例 如 ,假定 零 假 设 模型 是 y 一 Bi 十 Bz 十 w ,其 中 ,wu 是 同方 差 的。 是 
否 还 包括 z 作为 回归 元 的 一 个 检验 ,也 同样 具有 对 应 于 模型 天 于 z 为 非 线性 的 备 
选 假设 的 势 , 璧 如 7 一 局 十 BX 十 Bx 十， 当 入 与 之 相关 时 。 类 似 地 ,对 应 于 腊 方 差 
的 检验 ,将 同样 具有 对 应 关于 zi 为 非 线 性 的 某 种 势 。 对 等 假 设 拒 绝 ,并 不 意味 着 
备 选 假设 模型 是 唯一 的 可 行 模型 。 


7.2.7 联 台 检验 与 单独 检验 


在 应 用 研究 中 ,人 们 经 常 想 要 知道 源 自 系数 集合 的 哪 一 个 系数 是 “ 显 着 的 ”。 
当 检 验 存 在 几 种 假设 时 ,人 们 不 是 执行 联合 检验 (joint test) 或 执行 关注 系数 所 有 
假设 的 联 立 检验 ,就 是 实施 下 检验 假设 的 单独 检验 (separate test) 。 

线性 回归 的 一 个 重要 例子 涉及 ,通过 利用 联合 假设 Ho,: B= 二 BB 二 0 的 下 检验 ， 
对 和 零 假 设 Hio: Bb 一 人 与 Ho: Bz 一 0 进行 单独 i 检验 的 使 用 ,其 中 的 备 选 假设 目 始 
至 终 是 ,至 少 有 一 个 参数 不 等 于 0。 倘若 估计 点 (8 ，PBs) 落 在 椭圆 概率 等 高 线 外 ， 
则 对 拒绝 昌 , 来 说 ,F 检验 是 显 性 联合 检验 。 或 者 ,执行 两 个 独立 检验。 这 种 方 
法 是 隐 性 联合 检验 , 称 为 诱导 检验 (induced test)[ 萨 文 (Savin，1984)]。 如 果 不 是 
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a 


拒绝 Hio 就 是 拒绝 日 w ,那么 独立 检验 就 要 拒绝 万, ,车 (Bi ,Bs) 落 在 其 边界 由 两 个 
检验 统计 量 的 临界 值 所 构成 的 秆 形 之 外 ,就 会 产生 这 种 情况 。 尽 管 同 样 的 显著 性 
水 乎 用 于 检验 五 。, 因 而 椭圆 与 矩形 具有 相同 的 面积 ,但 对 联合 检验 与 独立 检验 来 
说 ,其 拒绝 域 则 是 不 同 的 ,从 而 它们 之 间 存 在 潜在 的 矛盾 。 例 如 ,(p8 ,ps ) 可 能 位 于 
椭圆 之 内 ,而 在 矩形 之 外 。 

设 el 与 ez 表示 两 个 独立 检验 的 第 I 类 错误 的 事件 ,并 设 el 二 el Ues 表示 诱导 
联合 检验 的 第 [ 类 错误 的 事件 。 从 而 ,PrlLeij=PrLe | 十 PrLez | 一 Pr[ei 门 e; 1, 这 
蕴含 : 


Aa 十 az (7. 14) 


其 中 ,sw 和 az 分 别 表示 诱导 联合 检验 .第 一 个 独立 检验 以 及 第 二 个 独立 检验 。 
在 独立 检验 是 统计 独立 的 特别 情况 下 ,Prle 门 eej=PrLe jPrlLes 一 aaz ,从 而 ao 
ma 十 cz 一 alaz ,对 于 aa 与 az 的 典型 小 的 值 来 说 , 壁 如 0. 05 或 0.01,aaias 是 非常 小 
的 ,而 且 上 前 (7. 14) 是 检验 水 平 的 一 个 好 标示 变量 。 

相当 多 的 诱导 检验 方面 的 文献 都 考察 对 独立 检验 临界 值 进行 选取 的 问题 , 以 
使 诱导 检验 具有 已 知 水 平 。 此 处 不 长 篇 研讨 这 个 问题 ,而 是 将 邦 费 尼 上 检验 (Bom 
ferroni 上 test) 作为 一 个 例子 。 该 检验 的 临界 值 已 被 制 成 表格 ,参见 萨 文 (Savin， 
1984) 。 

知 信 息 矩 阵 的 有 关 部 分 是 对 角 的 , 则 在 具有 正 交 回归 元 的 线性 回归 中 以 及 基 
于 似 然 的 检验 (参见 7. 3 节 ) 中 都 会 产生 统计 独立 检验 。 那 么 ,诱导 联合 检验 统计 
量 是 建立 在 两 个 统计 独立 的 独立 检验 统计 量 的 基础 上 ,而 显 性 联合 零 检验 统计 量 
则 是 两 个 独立 检验 统计 量 之 和 。 由 于 零 检验 的 一 个 或 者 两 个 分 量 被 拒绝 ,所 以 联 
合 零 检 验 可 能 被 拒绝 。 运 用 独立 检验 将 会 揭示 哪 一 种 情况 可 以 应 用 。 

在 更 一 般 的 相关 回归 元 或 者 非 对 角 信 息 和 矩阵 情况 下 , 显 性 联合 检验 具有 拒绝 
零 检 验 并 且 不 能 表明 拒绝 来 源 的 缺点。 假如 运用 诱导 联合 检验 ,对 检验 水 平 的 设 
冒 就 会 需要 邦 费 尼 检 验 的 某 种 变形 或 利用 式 (7. 14) 上 界 的 近似 。 对 每 一 个 阶段 都 
以 前 一 阶段 结果 为 条 件 , 当 顺 次 应 用 独立 检验 时 ,也 会 出 现 类 似 问题 。8. 7. 1 节 将 
阐述 一 种 对 具有 两 个 假设 的 联合 检验 进行 讨论 的 例子 ,那里 检验 的 两 个 分 量 是 相 
天 的 。 


7.2.8 置信 区 间 方 法 


用 于 推 叶 沃 尔 德 检验 统计 量 的 方法 称 为 德尔 塔 方法 (delta method, 又 称 3 方 
法 ) ,这 是 因为 h(8 ) 的 泰勒 序列 需要 对 h (9) 求 导数 。 该 方法 还 能 用 于 获得 参数 的 
非 线性 组 合 的 分 布 ,从 而 建立 置信 区 间或 区 域 。 

第 一 个 例子 是 通过 0 /6 估计 比值 .70 。 第 二 个 例子 是 对 条 件 均 值 g(x 6) 
进行 预测 ,比如 说 ,利用 g(x B) 预 测 g(xB)。 第 三 个 例子 是 对 xz 的 一 个 分 量变 化 
进行 弹性 估计 。 

置信 区 上 间 

参数 向 量 y 一 h(9) 的 置信 区 间 是 通过 


7 二 h(0) (7. 15) 


估计 出 的 ,其 中 ,VN(C6 一 8,) 的 极限 分 布 已 由 式 (7. 5) 给 出 。 于 是 ,直接 应 用 式 
(7.9 ) 可 得 到 ,VN( 字 一 yo) 全 N[0,RoCoR 和 ,其 中 ,R(6) 已 由 式 (7.4) 定 义 。 等 
价 地 , 称 了 渐 近 服从 正 态 分 布 ,其 估计 渐 近 方差 矩阵 为 ， 

V[3 |]=RN -CR (7. 16) 
此 结果 能 用 于 建立 置信 区 间或 区 域 。 


特别 地 , 纯 量 参数 7 的 100(1 一 a)% 置 信和 区 间 (confidence interval for the sca- 
lar parameter) 是: 


YEY+tz,2 sely J (7. 17) 
其 中 ， 
se| y |=vVeN Cr (7. 18) 
置信 区 间 例 子 


举 一 个 例子 ,假定 ELy|xj 二 exp(xB), 并 想 要 获得 当 x 一 x 时 预测 条 件 均值 
的 置信 区 间 。 于 是 ,h(B) 一 exp(x B), 因 而 3h/9B' = 二 exp(xsB )x,, 且 由 式 (7. 18) 
得 到 ， 


se[ exp(x, B) ]=exp(x, B) VAN “1Cx, 


其 中 ,C 表示 VN( 6B 一 Bo) 的 极限 分 布 中 方差 矩阵 的 一 致 估计 值 。 

举 第 二 个 例子 ,假定 想 要 得 到 e 的 置信 区 间 , 而 不 是 纯 量 系数 8 的 置信 区 间 。 
那么 ,h(B8) 二 2, 因而 24/98 二 eB ,并 由 式 (7. 18) 得 到 , se[ ef ] 二 ef se[8]。 这 就 得 出 
ee 的 95% 置 信和 区间 在 es 士 1. 96ef se[ 8] 之 间 。 

6 方法 并 不 总 是 获得 置信 区 间 的 最 佳 方 法 ,这 是 因为 它 把 置信 区 间 限 制 成 关 
于 了 对 称 的 。 此 外 ,在 前 面 例子 中 ,尽管 #8>>0, 但 其 置信 区 间 可 通过 对 8 置信 区 间 
中 的 项 取 指 数 而 获得 。 从 而 有 : 


Pr[ 8—1. 96se[ 8]<B8<B+1. 96se[L Bj]=0. 95 
—> Pr| exp (8 一 1. 96seLp8])<e8<exp(8 十 1. 96se[ 8])]=0. 95 


该 置信 区 间 具 有 非 对 称 且 仅 包 括 正 值 的 优点 。 这 种 变换 经 常用 于 二 值 模型 以 及 持 
续 期 间 模 型 的 斜率 参数 的 置信 区 间 。 当 疡 (。) 是 单调 的 时 ,将 这 一 方法 推广 到 其 他 
变换 y= 二 h(9)。 


7.2.9 沃 尔 德 共 验 锯 少 不 变性 


右 能 获得 无 约束 模型 的 估计 值 ,就 容易 得 出 沃 尔 德 检验 统计 量 ,而 且 该 统计 量 
的 效力 不 亚 于 其 他 可 行 的 检验 方法 ,如 同 稍 后 章节 所 讨论 的 。 因 此 , 它 是 最 普遍 使 
用 的 检验 方法 。 

可 是 , 沃 尔 德 检 验 存 在 一 个 基本 问题 :对 零 假 设 在 代数 形式 上 等 价 的 参数 化 来 
说 , 它 不 是 不 变 的 。 例 如 ,考察 7. 2. 5 节 的 例子 。 于 是 ,Bo: 901/6, 一 1 二 0 能 等 价 地 
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表述 成 互 o: 0 一 多 一 0, 得 到 沃 尔 德 卡 方 检验 统计 量 : 
VW 一 NO 一 9)206 —2c6 十 cz) (7. 19) 

它 不 同 于 式 (7. 13) 中 的 W。 尽 管 W 与 W* 是 渐 近 等 价 的 ,但 有 限 样 本 中 的 统计 量 
W 与 W* 相差 其 远 。 如 同 格 雷 戈 里 和 维尔 (Gregory and Veall，1985) 曾 经 考察 的 
一 个 非常 类 似 的 例子 ,他 们 运用 蒙特 卡 罗 模 拟 研 究 表 明 , 小 样本 差异 性 是 相当 大 
的 。 对 名 义 水 平 为 0.05 的 检验 来 说 , 沃 尔 德 检验 的 一 种 变形 通过 所 有 模拟 都 具有 
0.04 与 0.06 之 间 的 实际 水 平 , 因 而 渐 近 理论 提供 了 一 种 小 样本 的 良好 近似 ,而 一 
种 可 供 选 择 的 沃 尔 德 检验 的 渐 近 等 价 变形 在 某 些 模拟 中 具有 超过 0. 20 的 实际 
水 平 。 

菲利普 斯 和 帕克 (Phillips and Park，1988) 解 释 了 这 一 差异 ,他 们 表明 ,利用 传 
统 洒 近 方 法 ,尽管 各 种 不 同 零 假设 约束 表示 具有 相同 的 卡 方 分 布 ,可 是 一 旦 利用 更 
精炼 的 建立 在 埃 奇 沃 思 展 开 式 基础 上 的 渐 近 理论 (参见 11. 4. 3 节 ), 它 们 却 服从 不 
同 的 新 近 分 布 。 进 一 步 地 ,在 特殊 背景 下 ,诸如 前 面 例 子 , 埃 奇 沃 思 展 开 式 能 用 于 
表明 互 。 的 参数 化 以 及 参数 空间 的 区 域 ,通常 渐 近 理论 可 能 提供 一 个 不 好 的 小 样 
本 近似 。 

当 对 非 线 性 约束 进行 检验 时 ,其 经 验 教训 是 要 小 心 谨慎 。 作 为 一 种 稳健 性 检 
查 , 人 们 能 利用 各 种 不 同 的 在 代数 形式 上 等 价 的 零 假 设 约 东胡 示 , 来 执行 几 种 沃 尔 
德 检验 。 夺 这些 检 验 得 出 实质 上 截然 不 同 的 结论 ,就 可 能 存在 问题 。 一 种 解决 方 
法 是 执行 沃 尔 德 检验 的 上 自助 法 形式 。 这 就 提供 了 较 好 的 小 样本 特性 ,同时 得 除 利 
用 各 种 不 同 的 H。 表示 的 沃 尔 德 检验 之 间 的 大 部 分 差异 ,因为 由 11. 4. 4 节 知 , 自 
助 法 本 质 上 执行 埃 奇 沃 思 展 开 式 。 第 二 种 解决 方法 是 运用 下 一 节 给 出 的 其 他 检验 
方法 ,这 些 方 法 对 于 晶 , 的 各 种 不 同 表示 是 不 变 的 。 


7.3 基于 似 然 的 检验 


本 节 考 察 ,已 知 似 然 函 数 一 一 其 分 布 是 完全 设 定 的 时 的 假设 检验 问题 。 
于 是 ,存在 三 种 实施 假设 检验 的 经 典 统计 方法 : 沃 尔 德 检验 、 似 然 比 (LR) 检 验 以 及 
拉 格 朗 日 夹子 (LLM) 检验 。 第 四 种 检验 是 归功 于 内 曼 (Neyman，1959) 的 Cl(a) 检 
验 , 该 检验 并 不 普 裔 使 用 ,所 以 这 里 没有 阅 述 ;参见 戴维森 和 寿 金 农 (Davidson and 
MecKinnon，1993) 。 所 有 这 四 种 检验 均 是 渐 近 等 价 的 ,因而 对 它们 进行 选取 ,要 考 
虑 到 计算 的 方便 与 否 以 及 有 限 样 本 特性 。 本 节 还 没有 涵盖 内 曼 (Neyman，1937 ) 
的 光滑 检验 (smooth test) , 贝 拉 和 戈 什 人 Brea and Ghosh，2002) 曾 讨论 哪 一 种 是 最 
优 的 且 像 其 他 检验 一 样 是 基本 的 。 

这 些 结果 均 假 定 似 然 肾 数 被 正确 设 定 。7.5 节 给 出 对 建立 在 拟 极 大 似 然 估计 
量 、m 估计 量 以 及 有 效 广 义 矩 方法 和 估计 量 基础 上 检验 的 推广 。 


7.3.1 半 尔 德 检验 、 似 然 比 检验 以 及 拉 格 妥 日 (得分) 检验 


设 L(0) 表 示 似 然 旺 数 , 即 给 定 XX 与 8 参数 时 y 的 联合 条 件 密度 。 我 们 想 要 检 
验 式 (7.3) 给 出 的 零 假 设 :h(0,) 二 0， 





际 疾 尔 德 检验 之 外 ,其 他 检验 都 要 求 利 用 零 假设 约束 进行 估计 。 定 义 估计 量 : 


90， (无 约束 MLE) 
06， (约束 MLE) 


无 约束 极 大 似 然 估 计量 (unrestricted MLE)6, 是 对 ln 工 (6) 求 极 大 值 ;在 对 沃 尔 德 
检验 的 线性 讨论 时 ,更 简单 地 记 为 6 。 约 束 极 大 似 然 估计 量 6, 是 对 拉 格 朗 日 算 子 
InL(0) 一 入 hC9) 求 极 大 值 ,其 中 ,和 表示 hx1 维 拉 格 朗 日 乘 子 。 在 排除 性 约束 
h(0) 一 0 一 0 的 简单 情况 下 ,其 中 ,0 二 (01,6z), 约 束 极 大 似 然 估计 量 是 0, 二 (61,， 
0'), 这 里 ,91, 是 对 约束 似 然 in (01 ,0) 求 关于 0, 的 极 大 值 而 直接 获得 的 ,而 0 表示 
(g 一 上) X1 维 零 向 量 。 

这 里 将 引出 并 定义 三 种 检验 统计 量 , 有 关 其 推导 则 推迟 到 7. 3. 3 节 。 所 有 这 
三 种 统计 量 在 H。 下 均 依 分 布 收敛 到 X (h) 。 因 此 , 当 计 算 的 检验 统计 量 大 于 
% (4) ,在 显著 性 水 平 上 拒绝 态 ,。 等 价 地 讲 , 当 p<<a 时 ,在 水 平 上 拒绝 万 , ,其 
中 ,p 一 Pr[X (有 ) 泛 和 表示 p 值 ,而 t 表示 检验 统计 量 的 计算 值 。 

似 然 比 检验 

激发 似 然 比 检验 统计 量 的 是 , 当 H 正确 时 ,无 约束 的 对 数 似 然 函 数 的 极 大 值 
与 约束 的 对 数 似 然 函 数 的 极 大 值 是 同样 的 。 这 建议 利用 InL(6,) 与 InL(6,) 之 差 
的 函数 。 

实施 检验 需要 获得 该 差 的 极限 分 布 。 可 以 证 明 , 在 昌 。 下 ,2 倍 差分 服从 渐 近 
卡 方 分 布 。 从 而 ,立刻 得 出 似 然 比 检验 (likelihood ration test) 统 计量 : 


LR=—2[ln L(0,)—1ln LL(0,)| (7. 21) 


(7. 20) 


沃 尔 德 检验 

激发 沃 尔 德 检验 的 动机 是 , 当 H。 正确 时 ,无 约束 极 大 似 然 估 计量 6, 应 满足 
H。 约束 ,因此 ,h(0,) 应 接近 于 0。 

实施 检验 需要 获得 h(6.) 的 渐 近 分 布 。 沃 尔 德 检验 的 一 般 形式 已 由 式 (7. 6) 给 
出 。 对 极 大 似 然 估 计 而 言 ,通过 信息 矩阵 (1M) 等 式 V[0,] 二 一 N “As! 会 得 出 特 
殊 化 结果 ,其 中 . 


2 
Au 一 plim N19 (7. 22) 


这 就 得 出 沃 尔 德 检验 (Wald test) 统 计量 : 
W—=—Nh [RA iR’ I-ih (7. 23) 


其 中 ,h 一 h(0,),R 一 R(0,),R(0) 二 9h(0)/ 90 ,而 A 表示 A 的 一 致 估计 值 。 由 于 
Au 是 正定 的 , 故 出 现 负 号 。 

拉 格 朗 日 乘 子 检验 或 得 分 检验 

引出 拉 格 朗 日 乘 子 检验 统计 量 的 动机 是 ,在 似 然 函数 极 大 值 处 的 梯度 
9ln L/3991; = 二 0。 当 HH。 正确 时 ,这 个 极 大 值 也 应 在 约束 极 大 似 然 估计 处 ( 即 
91lnL 上 /93981; 人 0) 达到 ,因此 ,利用 此 约束 极 少 对 6 估计 值 产 生 影响 。 源 于 此 动机 ， 


微观 经 济 计 量 学 


本 本 机 


由 于 3 ln 9/98 是 得 分 向 量 , 故 拉 格 朗 日 来 子 被 称 为 得 分 检验 514(score test) 。 

一 种 可 供 选 择 的 动机 是 测量 关于 约束 极 大 似 然 估 计 的 约束 最 优化 问题 的 拉 格 
朗 日 乘 子 (Lagrange multipliers) 接 近 于 0 的 情况 。 对 ln 工 (6) 一 入 h(9) 求 关于 6 的 
极 大 值 , 得 出 : 

ainL| _ah(9)/ 
90 15 90 

由 此 可 得 ,建立 在 估计 拉 格 朗 日 乘 子 钨 基础 上 的 检验 ,等 价 于 建立 在 3lnL/a6|z 基 
础 上 的 检验 ,这 是 因为 ,假定 3h/a6' 是 满 秩 的 。 

实施 检验 需要 获得 9 In L/901s 的 渐 近 分 布 。 这 就 得 出 拉 格 朗 日 乘 子 检验 (La- 
grange multiplier test) 或 得 分 检验 (score test) 统 计量 : z 


~_i9lnL 


Pp 


XA (7. 24) 


0 








LM- 一 NT ;A 90 

其 中 ,A 表示 式 (7. 22) 在 Au 处 而 不 是 在 6 处 计算 的 一 致 估计 值 。 

归功 于 艾 奇 逊 和 西 尔 维 (CAitchison and Silvey，1958) 与 西 尔 维 (Silvey，1959) 
的 LM 检验 (LM test) ,等 价 于 拉 奥 (Rao，1947) 的 得 分 检验 。 检 验 统计 量 LM 通 
常 是 通过 获得 得 分 的 解析 表达 式 而 不 是 拉 格 明日 乘 子 推 寻 出 的 。 尽 管 比较 清晰 的 
术语 为 得 分 检验 ,但 经 济 计 量 学 家 通常 还 是 称 该 检验 为 LM 检验 。 

讨论 

布 斯 (Buse，1982) 通 过 对 这 三 种 检验 进行 图 示 阐 述 , 提供 了 一 种 很 好 的 直观 
效果 ,他 把 全 部 三 种 检验 处 理 成 对 数 似 然 变化 的 测量 。 这 里 ,我 们 提供 一 种 语言 

考察 纯 量 参数 以 及 名 一 0 一 0 是 否 成 立 的 沃 尔 德 检验 。 于 是 ,8. 与 0 的 已 知 
不 同 将 被 转化 成 In L 上 的 较 大 变化 ,具有 较 大 曲 度 的 就 是 对 数 似 然 函数 。 曲 率 的 
一 种 正常 测度 是 二 阶 导数 百 (0) 二 9 In L/90? 。 这 就 建议 W= 一 (0, 一 0* )?H(0,)。 
式 (7. 23) 中 的 统计 量 W 能 被 看 成 对 向 量 9 与 带 有 测量 曲率 NA 的 更 一 般 约束 
h(9, ) 的 推广 。 

对 得 分 检验 来 说 , 布 斯 已 经 证 明 ,31n LL/399|; 的 已 知 值 被 转换 成 lnL 的 较 大 变 
化 ,具有 较 小 曲 度 的 就 是 对 数 似 然 函数 。 这 就 导致 在 式 (7. 25) 中 运用 了 (NA)-:。 
而 且 , 统 计量 LR 可 直接 与 对 数 似 然 进行 比较 。 

例子 

为 了 简明 这 三 种 检验 ,考察 一 个 满足 入 一 人 Eu ;1 有 旦 检验 五 。: Kop 的 iid 
例子 。 于 是 ,pj 一 3 县 二 。 


对 于 拉 格 朗 日 乘 子 检验 ,ln LU 一 一 今 ln 2r 一 方 忆 ,(y 一 /0? ,经 过 一 些 代数 
运算 ,得 到 ， 








(7. 25) 


0 


LR=2[In Ly)—ln LO =N(Gy—* 32 


[C12 又 称 为 分 值 检验 。 一 一 译 者 注 


本 


沃 尔 德 检验 是 建立 在 3 一 jy.* 二 0 是 否 成 立 的 基础 上 。 这 里 容易 证 明 , 在 H。 
下 ,5 一 pg ~~MNL0,1/Nj, 从 而 得 到 二 次 形式 : 
W—=(y—p* ) LIAN (y—p” ) 
该 式 补 简化 成 N(5 一 u" )?, 进 而 W 一 LR.。 
拉 格 半日 乘 子 检验 (LM) 是 建立 在 91n 工 (jy) /94|,* = (yi— 0) 六 =N (y— 


Ap” ) 接近 于 0 的 基础 上 。 这 恰好 是 对 (7 一 六 ) 的 重新 标 度 , 所 以 LM 一 W。 更 正式 
地 讲 , 和 (or ) 一 一 1, 由 于 az In LO0) /9 二 一 N, 且 由 式 (7. 25) 得 到 : 


LM 一 N (CN (y—p* DL ION (Fy—p* )) 


它 可 被 简化 成 N (7 一 必 六 ,从 而 验证 LM 王 到 王 LR。 

尽管 这 三 种 检验 具有 截然 不 同 的 产生 动机 ,但 三 种 检验 统计 量 在 此 处 却 是 相 
同 的 。 归 因 于 对 数 似 然 关 于 ww 为 二 次 的 ,这 种 精确 等 价 是 常 值 曲率 的 特殊 例子 。 
更 一 般 地 讲 , 三 种 检验 统计 量 在 有 限 样 本 中 是 不 同 的 ,但 它们 是 渐 近 等 价 的 (参见 
7. 3.4 节 )。 


7.3.2 油 松 回归 例子 


考察 5.2 节 引 入 的 泊 松 回归 模型 中 排除 性 约束 的 检验 。 这 个 例子 主要 是 考虑 
到 教学 上 的 方便 ,因为 实际 上 人 们 应 该 在 与 那些 泊 松 模型 相 比 为 弱 分 布 的 假设 下 ， 
实施 计数 数据 的 统计 推断 (参见 第 20 章 ) 。 

若 给 定 x 时 y 服从 泊 松 分 布 ,其 条 件 均 值 为 exp《xB), 则 对 数 似 然 阻 数 是 : 


InL(B) = >) {~— exp(xiB) + yxiB — In y;!) (7. 26) 


对 个 排除 性 约束 来 说 ,其 零 假设 是 Ho: h(B) 二 Bs 二 0, 其 中 ,8 二 6B1 ,Bs)，。 
无 约束 MLE [6 对 式 (7. 26) 求 关于 B 极 大 值 ,并 其 有 一 阶 条 件 2; (y; 一 
exp(X%iB))x; 一 0。 该 极限 方差 矩阵 是 一 A-! ,其 中 ， 


A 一 一 plim N77 exp(XKG )xix 


约束 MLE 是 8 二 CB1,0) ,其 中 ,Bi 对 式 (7. 26) 求 关于 Bi 的 极 大 值 , 由 于 
G: 一 0, 故 用 xi 代替 xiB。 因 而 ,Bi 是 一 阶 条 件 盖 (一 expGCxliG xi 一 0 的 解 。 

似 然 比 检验 统计 量 (7. 21) 很 容易 从 约束 模型 的 与 无 约束 模型 的 拟 合 对 数 似 然 
中 计算 出 来 。 | 

源 于 7. 2. 5 节 的 排除 性 约束 的 沃 尔 德 检 验 统计 量 是 W= 一 NBsA? 忆 ,其 中 ， 
A2 表示 A-1! 的 (2，2) 分 块 , 并 且 A 二 一 N15),exp(x! B)xx/。 

LM 检验 是 建立 在 91n L(B)/9B = 二 >,x;(y; 一 exp(xiB )) 的 基础 上 。 在 约束 
MLE 处 , 它 等 于 ;Xai ,其 中 ,a; =y;— exp(xiP1 ) 表示 源 自 对 约束 模型 进行 估计 
的 残 差 。LM 检验 统计 量 (7. 25) 是 : 


LM = | Dy xa] | 2) expGxiB xx | | > xa | (7. 27) 


微观 经 济 计量 学 
由 前 面 给 定 的 约束 MLE 的 一 阶 条 件 知 , 由 于 2;xiz; 二 0, 可 能 得 到 某 种 进一步 简 
化 。 这 里 的 LM 检验 建立 在 省 略 回 归 元 与 其 残 差 相关 的 基础 上 ,其 结果 可 推广 到 
7. 3.5 太 的 其 他 例子 。 

通常 很 难 获得 LM 检验 的 代数 表达 式 。 对 LM 检验 的 标准 应 用 来 说 ,就 是 这 
样 做 的 ,并 纳入 计算 机 软件 包 之 中 。 通 过 辅助 回归 ,进行 计算 也 是 可 能 的 (参见 
7. 3.5 节 )。 


7.3.3 推导 检验 


疾 尔 德 检验 的 分 布 已 在 7. 2.4 节 正式 推导 出 来 。 有 关 似 然 比 检验 与 拉 格 朗 日 
检验 的 证 明 则 更 为 复杂 , 此 处 我 们 仅仅 概述 其 证 明 。 

似 然 比 检验 

为 了 简单 起 见 ,考察 零 假 设 是 9==9 的 特殊 情况 ,因此 ,60, 二 9 时 不 存在 任何 估 
计 误 差 。 在 ln L(6) 附 近 取 ln 工 (0.) 的 二 阶 泰勒 级 数 展开 式 , 得 到 : 


FA、 A 9lnL A__n 1 A__A\/ 9*lnL A A 
InLO)—In LO TT eg ; ‘0 0.) + 0 0,) ErEr ; “0 0,) TR 


其 中 ,R 表示 剩余 项 。 由 一 阶 条 件 知 ,3ln /38| 一 0, 经 过 重新 整理 得 出 : 


加 “2 gnL| ,~ ~ 
2[InL(O)—InL(0.)]=—(0—0.) 0 ; (0—08,)+R (7.28) 
在 H,: 96 下 ,由 标准 结果 知 ,VNCG6, 一 0) 全 N[0, 一 [plim N-192zlnL/393g 枉 1， 
故 式 (7. 28) 右 边 服从 X (4)。 例 如 ,在 一 般 情 况 下 ,关于 LR 极限 分 布 的 推导 ,参见 
雨 官 (Amemiya，1985, 第 143 页 )。 
侦 爱 LR 的 一 个 理由 是 ,由 内 晕 一 皮尔 还 (Neyman-Pearson，1933)5 引 | 理 可 知 ， 
对 简单 零 假设 对 应 于 简单 备 选 假 设 进行 检验 的 始终 最 有 效力 的 就 是 似 然 比 
L(6,)/L(0,) 函 数 , 尽 管 特 定 函 数 一 2In(L(6,)/L(60,)) 不 一 定 等 于 式 (7. 21) 给 出 的 
似 然 比 ,而 且 可 对 该 统计 量 给 出 一 个 称谓 。 








LM 或 得 分 检验 

由 一 阶 泰勒 级 数 展开 式 可 知 : 
1 3lnL| 1 9g9nLL 19°lnL -i 
/入 al /N 930 la N 9090 VN (0.—0) 


而 其 右边 的 两 项 有 助 于 得 出 极限 分 布 。 于 是 ,可 以 证 明 ,由 式 (7. 25) 和 定义 的 拉 格 明 
日 乘 子 的 X (4) 分 布 遵 从 : 

1 glnL 
VN oo0 
其 详细 推导 已 由 伍德 里 奇 C(Wooldridge，2002, 第 365 页 ) 给 出 ,例如 ,Ro 与 和 已 经 
由 式 (7.4) 与 式 (7. 22) 定 义 , 而 : 


SN[0, RAB,As!R’] (7. 29) 


六 


RoA。， 





dlnLolnL 
90 90 | 





Bo ~—plim N 一 (7. 30) 


加 本 可 


结 采 (7. 29) 得 出 比 式 (7. 25) 更 复杂 的 卡 方 统计 量 , 但 通过 信息 矩阵 等 式 可 对 它 简 
化 为 式 (7. 25) 。 


7.3.4 万 个 检验 好 


通 浓 ,对 检验 方法 的 选择 要 依据 稳健 形式 存在 与 否 、 有 限 样本 特性 以 及 计算 是 
否 简 单 来 决定 。 
渐 近 等 价 性 


所 有 这 三 种 检验 统计 量 在 吾 , 下 都 服从 渐 近 X (4) 分 布 。 进 一 步 地 ,可 以 证 


明 , 三 种 统计 量 都 是 非 中 心 Xx (1;) 分 布 ,并 且 在 局 部 备 选 条 件 下 ,具有 相同 的 非 中 
心性 参数 。7. 6.3 节 给 出 沃 尔 德 检验 的 详细 内 容 。 因 此 ,这 三 种 检验 对 应 于 局 部 
备 选 假设 具有 相同 渐 近 热 。 

三 种 统计 量 的 有 限 样 本 分 布 并 不 一 样 。 在 具有 正 态 性 的 线性 回归 模型 中 , 对 
于 9 的 h 个 线性 约束 的 沃 尔 德 检验 的 一 种 变形 ,等 于 下 (h,N 一 K) 统 计量 (参见 
7.2.1 节 ), 可 是 似 然 比 统计 量 与 拉 格 朗 日 乘 子 统计 量 却 都 不 存在 解析 结果 。 更 一 
般 地 讲 , 非 线性 模型 不 存在 准确 的 小 样本 结果 。 

在 一 些 情况 下 ,能 得 出 这 三 种 统计 量 取 值 的 次 序 。 尤 其 是 在 正 态 性 下 ,就 线性 
回归 模型 的 线性 约束 检验 而 言 , 波 恩 特 和 陀 文 (Berndt and Savin, 1977) 已 经 证 明 ， 
沃 不 德 检验 宇 LR 之 LM。 这 个 结果 很 少 具有 理论 重要 性 ,因为 在 零 假 设 下 ,最 不 可 
能 拒绝 的 检验 将 具有 最 小 的 实际 水 平 , 但 也 具有 最 小 势 。 不 过 , 它 对 于 线性 模型 却 
具有 实践 重要 性 ,因为 它 意 味 着 当 在 固定 名 义 水 平 上 进行 检验 时 , 沃 尔 德 检验 将 总 
是 比 似 然 比 更 经 常 地 拒绝 日, ,同样 , 似 然 化 检 验 将 总 是 比 拉 格 朗 日 乘 子 检验 更 经 
党 地 把 绝 互 。。 研 究 者 更 偏爱 用 沃 尔 德 检验 来 决定 拒绝 互 。。 此 结果 局 限于 线性 
模型 。 

重新 参数 化 的 不 变性 

对 和 零 假 设 的 代数 形式 上 等 价 的 重新 参数 化 来 说 , 沃 尔 德 检 验 不 是 不 变 的 (参见 
7.2.9 节 ), 而 LR 检验 是 不 变 的 。 可 是 ,不 是 所 有 的 拉 格 朗 日 乘 子 检验 形式 都 是 不 
变 的 。 当 期 望海 赛 气 阵 ( 参 见 5. 5. 2 节 ) 用 于 估计 A , 拉 格 朗 日 乘 子 检验 通常 是 不 
变 的 ;而 当 海 赛 矩阵 用 于 估计 A , 拉 格 朗 日 乘 子 检验 就 不 是 不 变 的 。 稍 后 由 式 
(7. 34) 定 义 的 LM’* 检验 是 不 变 的 。 沃 尔 德 检验 缺乏 不 变性 是 其 主要 弱点 。 

稳健 形式 

在 错误 设 定 密度 的 一 些 情况 下 , 准 MLE( 参 见 5.7 节 ) 仍 是 一 致 的 。 于 是 ,LM 
很 容易 得 以 稳健 处 理 ( 参 见 7. 2 节 )。 对 拉 格 朗 日 乘 子 检验 就 更 难 进 行 稳健 处 理 ， 
参见 7. 5. 1 节 的 m 估计 量 一 般 结 果 以 及 8. 4 节 关 于 稳健 拉 格 朗 日 乘 子 检验 的 一 些 
例子 。 除 了 在 稍 后 由 式 (7. 39) 给 出 的 特殊 情况 下 , 似 然 比 检验 不 再 服从 卡 方 分 布 。 
相反 , 拉 格 妆 日 乘 子 检验 却 服 从 卡 方 分 布 的 混合 形式 (参见 8. 5. 3 市 )。 

简便 

计算 简便 也 是 一 个 要 考虑 的 因素 。 似 然 比 需要 对 模型 计算 两 次 ,其 中 一 次 是 
对 无 约束 的 零 假 设 , 男 一 次 则 是 对 约束 的 零 假设 。 当 运用 软件 计算 时 就 很 容易 , 因 
为 人 们 只 需要 读 出 例 行 打印 出 的 对 数 似 然 、 相 减 并 乘 2 就 可 以 。 当 无 约束 模型 容 
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和 


易 估 计时 , 沃 尔 德 检验 只 需要 在 HH, 下 进行 估计 ,而 且 是 最 佳 的 。 例 如 ,这 正 是 对 
非 线 性 模型 中 条 件 均 值 参 数 限制 的 情况 , 壁 如 NLS、probit、Tobit 以 及 logit。 当 约 
束 模 型 容易 估计 时 , 拉 格 朗 日 乘 子 统计 量 只 需 在 互 , 下 进行 估计 ,而 且 是 最 佳 的 。 
一 些 例子 就 是 对 自 相 关 与 异 方差 性 进行 检验 ,其 最 容易 的 是 估计 不 具有 这 些 复杂 

沃 尔 德 检验 经 常用 来 对 统计 显著 性 进行 检验 ,而 拉 格 朗 日 乘 子 检验 则 时 常用 
来 对 正确 设 定 模型 进行 检验 。 


7.3.5 拉 格 郎 日 对 子 检验 的 解释 与 计算 


在 一 些 重要 例子 中 , 拉 格 朗 日 肝 子 检验 具有 额外 的 简单 解释 以 及 通过 辅助 回 
归 进 行 计算 的 优点 。 

本 节 关 注 的 内 容 限 制 在 针对 不 同 i 的 独立 的 通常 的 横 截 面 数据 情况 的 纯 量 因 
变量 上 ,因而 有 In L(0) /9390 二 >;s;(0) ,其 中 : 


oln f(y |x, ;@) 
90 


s; (0) = (7. 31) 


表示 第 i 个 观测 值 对 无 约束 模型 得 分 向 量 的 贡献 。 由 式 (7. 25) 知 ,LM 检验 就 是 对 
>;s;(0,) 接 近 于 0 进行 检验 。 

拉 格 朗 日 乘 子 检验 的 简单 解释 

假定 密度 使 得 s() 因 式 分 解 为 : 


s(0)—~g(x,O0)r(y,x,0) (7. 32) 


这 里 ,对 于 某 个 xf1l 维 器 量 函数 g(*) 以 及 纯 量 消 数 rC(y,x,0) ,因为 y 出 现在 r(*) 
中 而 未 出 现在 gC) 中 , 故 rCy,x,0) 可 被 解释 成 广 芯 残 差 。 例 如 ,对 泊 松 个 归来 说 ， 
aln f/90=x(y—exp(x 8)). 

已 知 式 (7. 32) 以 及 对 不 同 i 的 独立 性 , 则 有 ain 工 /930 |; 二 ,gi7;, 其 中 ,8g; 一 
g(x,9.) 而 产 =r(y 0 )。 因 此 , 拉 格 朗 日 乘 子 检 验 可 简单 地 被 解释 为 ,对 多 与 
残 差 7, 之 间 相 关 性 的 得 分 检验 。 在 7. 3. 2 节 带 有 泊 松 回归 的 拉 格 朗 日 鞭子 中 ,已 
给 出 这 种 解释 ,其 中 ,g; 一 x; 且 产 一 一 exp(Cx B1)。 

每 当 f(y) 建 立 在 一 个 参数 密度 的 基础 上 ,就 会 得 到 分 解 (7. 32) 。 尤 其 是 , 许 
多 普遍 的 似 然 模 型 均 是 建立 在 一 个 参数 LEF 密度 上 ,其 参数 为 ,从 而 建 模 成 x 与 
8 的 函数 。 在 LEF 情况 下 ,r(y,x,0) 一 (y 一 ELy|xj) (参见 5.7. 3 节 ), 因 此 , 式 
(7. 32) 中 的 广义 残 差 x(. ) 就 是 通常 的 残 差 。 

更 一 般 地 讲 , 当 f(y) 建 立 在 两 个 参数 密度 的 基础 上 ,信息 和 矩阵 关于 两 个 参数 
是 分 块 对 角 的 ,同时 ,两 个 参数 分 别 依赖 于 回归 元 和 参数 向 量 8、a ,而 8 与 a 却 是 
截然 不 同 的 ,此 时 将 得 到 类 似 于 式 (7. 32) 的 分 解 。 于 是 ,对 8 的 LM 检验 就 是 对 
gai 与 Fw 相关 性 的 检验 ,其 中 ,s(B) 一 gs (x,8)ro (y,X,0) ,对 a 的 LM 检验 亦 可 给 
出 类 似 解释 。 

一 个 重要 例子 是 在 正 态 性 下 具有 两 个 参数 与 oo 的 线性 回归 ,其 中 ,ww 与 o 
被 建 模 成 一 x 6 与 c? 一 a 或 c2 一 o (za )。 对 正 态 性 条 件 下 线性 回归 的 排除 性 约 


束 来 说 ,s;(B) 二 xi(y; 一 xiB), 而 且 LM 检验 是 对 回归 元 x; 与 约束 模型 残 差 ,一 
y, 一 Xi 语 , 之 间 相关 性 的 检验 。 对 具有 异 方差 性 二 exp(ai 十 Za;) 的 检验 来 说 ， 
5(Q) 一 方 z((y; 一 x 记 )?/@) 一 1), 而 拉 格 朗 日 乘 子 检验 是 对 z 与 残 差 平方 地 一 


(y; 一 X1B)? 之 间 相 关 性 的 检验 ,这 是 因为 在 零 假设 下 ,aas 二 0 为 常 值 。 
拉 格 朗 日 习 子 检验 梯度 形式 的 外 积 
现在 回 到 式 (7. 31) 所 定义 的 一 般 形 式 yy (9) 上 上。 下面 我 们 证 明 , 拉 格 朗 日 乘 子 
检验 统计 量 (7. 25) 的 渐 近 等 价 形式 ,能 通过 实施 辅助 回归 (auxiliary regression) 或 
人 工 回归 : 
1 =$;7y 二 v; (7. 33) 
人 得到。 其 中 ， s 一 (0.) ,并 计算 
LM* =NR: (7. 34) 


这 里 ,Ri 表示 式 (7. 36) 后 面 所 定义 的 非 中 心 RR 。LM* 在 H。 下 服从 X (h)。 等 价 
地 讲 ,LM ”等 于 ESS, , 即 非 中 心 解释 的 平方 和 ( 拟 合 值 的 平方 和 ) ;或 者 等 于 NN 一 
RSS, 其 中 RSS 源 自 式 (7. 33) 中 的 残 差 平方 和 。 , 

像 许多 应 用 一 样 , 该 结果 很 容易 实施 ,并 十 分 容易 以 解析 形式 得 到 s; (0) ,生成 
9 个 分 量 5;,… ,So; 的 数据 ,并 把 1 对 55;,…, 5 进行 回归 。 注 意 到 ,在 这 里 , 式 
(7. 31) 中 的 f(y |x;,0) 是 无 约束 模型 的 密度 ， 

对 7. 3.2 节 中 泊 松 模型 例子 的 排除 性 约束 来 说 ,s;(B) 二 (yi 一 exp(x1B))x, 且 
x/3,—=xiO1,。 由 此 可 得 ,LM* 窒 计 算 成 从 l 对 (和 — exp (x1;/3, ) ) x; 的 回归 中 得 到 
的 NR ,其 中 9 入: 既 包 括 Xi 又 包 插 KX; ,而 [1, 是 从 Yi 对 xi; 进 行 的 泊 松 回 妇 中 得 到 的 。 

式 (7. 33) 与 式 (7. 34) 只 要 求 针 对 不 同 ; 的 独立 性 。 当 对 结果 进一步 假定 时 ， 
可 能 得 出 其 他 一 些 辅助 回归 。 特 别 地 ,对 如 同 式 (7. 32) 的 s(0) 分 解 因 式 情况 专门 
人 研究 ,并 定义 rl(y,X,0), 故 VLr(y,x,98) 一 1。 于 是 , 拉 格 朗 日 导 子 检验 的 一 种 可 供 
选择 的 渐 近 等 价 形式 ,是 来 自 产 对 划 回归 的 NR.。 这 就 得 出 在 正 态 情况 下 线性 回 
归 的 拉 格 明日 滋 子 检验 ,譬如 异 方差 性 布 鲁 什 一 由 甘 (Breusch-Pagan)LM 检验 。 

这 些 可 供 选 择 的 LM 检验 形式 称 为 拉 格 朗 日 乘 子 检验 梯度 形式 的 外 积 Couter- 
product-of-the-gradient) , 因为 它们 通过 B。 的 梯度 外 积 (OPG) 佑 计 值 或 BHHFH 佑 
计 值 来 代替 式 (7. 22) 中 的 一 A。。 尽 管 它 们 很 容易 计算 ,但 拉 格 朗 日 乘 子 检验 的 
OPG 变形 具有 不 好 的 小 样本 性 质 , 上 且 有 很 大 水 平 的 扭曲 。 这 妨碍 了 对 拉 格 朗 日 乘 
子 检验 的 OPG 形式 的 运用 。 这 些小 样本 问题 能 通过 自助 法 (参见 11. 6. 3 节 ) 而 大 
大 减少 。 戴 维 森 和 寿 金 农 (Davidson and MacKinnon，1984) 提 出 了 也 可 以 在 有 限 
样本 中 较 好 实施 的 双 倍 长 度 的 辅助 回归 。 

OPG 形式 的 推导 

为 了 推导 LM" ,首先 ,注意 到 式 (7. 25) 中 ,aln 工 (9)/abl; 二 2s;。 其 次 ,由 信 


息 抢 阵 等 式 A = 一 B 和 5. 5.2 节 可 知 ,Bo 在 Ho 下 通过 OPG 估计 值 或 BHHH 佑 
计 值 N 1 2,58; 得 到 一 致 侍 计 。 综 合 考虑 这 些 结果 ,就 得 出 拉 格 朗 日 乘 子 检验 统 
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计量 (7. 25) 的 一 种 渐 近 等 价 形式 : 
LM' = (>) 3) > ss| (Ds) (7. 35) 
这 一 统计 量 能 从 1 对 5 的 辅助 回归 中 计算 出 来 ,如 下 所 示 。 定 义 S 表 示 NXo 
阶 矩 阵 ,其 中 ,第 ;行为 系 , 定 义工 表示 元 素 为 1 的 NX1 阶 向 量 。 于 是 ,有 : 

LM* 一 1SISS -IST 一 ESS, 一 NR: (7. 36 ) 
通常 ,对 于 y 对 X 的 回归 来 说 , 非 中 心 化 解释 平方 和 (ESS) (uncentered explained 
sums of squares) 是 y XCX X)-Xy, 它 确实 是 式 (7. 36) 的 形式 ,其 中 , 非 中 心 化 
(uncentered) R? 是 R, 一 y XX(XXX) 1X'y/y'y, 此 处 是 由 1 二 NN 去 除 式 (7. 36)， 之 


所 以 使 用 非 中 心 化 术语 ,是 因为 在 Ri 除法 中 ,利用 了 在 0 点 的 而 不 是 样本 均值 处 
的 离 差 平方 和 。 


7.4 例 于 :基于 似 然 的 假设 检验 


各 种 检验 方法 一 一 沃 尔 德 .LR 以 及 LM 一 一 都 利用 从 y|x 的 泊 松 分 布 数据 
生成 过 程 所 得 到 的 数据 加 以 阐述 ,其 中 ,均值 为 exp(Bi 十 Bzs 十 Bzs 十 Bx4) ,这 里 ， 
B=0 日 应 二 记 二 fa 二 0.1 ;并 且 这 三 个 回归 元 都 是 从 NW[L0,1 jiid 抽取 的 。 

样本 量 为 200 的 y 对 截 距 、x;、zxs 以 及 x 的 泊 松 回归 ,得 出 无 约束 MLE: 


E[y|x]=exp(—0. 165— 0. 0028 zx; 十 0. 163z3: 十 0. 103z,) 
《一 2. 14)》 《一 0. 36 ) 《2. 43) 0. 08 ) 


其 中 ,有 关上 统计 量 已 由 括号 给 出 ,同时 无 约束 对 数 似 然 是 一 238. 772。 

四 种 不 同 的 假设 检验 分 析 已 详细 列 在 表 7. 1 的 第 1 列 里 。 估 计量 是 非 线性 
的 ,而 其 假设 分 别 是 单个 排除 性 约束 、 多 重 排除 性 约束 、 线 性 约束 以 及 非 线 性 约束 。 
些 表 的 其 他 内 容 给 出 这 四 个 检验 的 渐 近 等 价 检 验 统 计量 及 其 相关 的 之 值 。 对 于 该 
样本 来 说 ,所 有 检验 都 在 显著 性 水 平 0.05 上 拒绝 前 两 个 检验 ,而 对 其 余 两 个 检验 
则 不 拒绝 。 


表 7.1 沪 松 回归 例子 的 检验 统计 量 * 


检验 统计 量 水 平 0. 05 
零 假设 沃 尔 德 LR LM LM* InL 的 结果 
Ho: B=0 5. 904 5. 754 5. 916 6.218  —241. 648 拒绝 
(0.015) (0.016) (0.015) (0.013) 
H»: B=0, B=0 8. 570 8. 302 8. 575 9. 186 一 242. 922 拒绝 
(0.014) (0.016) (0.014) (0. 010) 
Hio: Bi—ph=0 0. 293 0. 293 0. 293 0.3]5 ”一 238.918 ”不 拒绝 
(0.588) (0. 589) (0. 588) (0. 575) 
Ho: B/B—1=0 0. 158 0. 293 0. 293 0.315 ”一 238.918 ”不 拒绝 


《0. 691 ) (0. 589) (0. 588) 《0. 57D) 


”> 的 数据 生成 过 程 是 泊 松 分 布 ,其 参数 为 exb(0. 0 二 0. lzrz 十 0. 1zs 十 0. 1rd) ,样本 量 为 N 一 200。 与 括 


号 中 pp 值 有 关 的 检验 统计 量 已 经 给 出 。 第 二 个 假设 检验 是 x (2) 分 布 ,而 其 他 一 些 检验 是 XY (1) 分 布 。 约 束 
ML 和 售 计 的 对 数 似 然 值 也 已 给 出 ;无 约束 模型 的 对 数 似 然 是 一 238., 772。 


证 


利用 式 (7. 23) 可 计算 沃 尔 德 检验 统计 量 。 为 了 获得 无 约束 MLE 的 方差 矩阵 
佑 计 值 ,需要 对 前 面 给 出 的 无 约束 模型 进行 估计 。 于 是 ,各 种 不 同 检 验 的 沃 尔 德 检 
验 , 需 对 不 同 的 h 与 R 进行 计算 ,并 在 一 些 情 况 下 加 以 简化 。 单 个 排除 性 约束 的 沃 
尔 德 卡 方 检验 正 是 通常 上 检验 的 平方 , 即 2. 432 一 5. 90。 联 合 排 除 性 约束 的 沃 尔 德 
检验 统计 量 已 在 7. 2. 5 节 详 细 阅 述 。 这 里 ,zs 是 统计 显著 的 ,而 x 是 统计 不 显著 
的 ,但 是 ,zs 与 x 联合 在 水 平 0. 05 上 都 是 统计 显著 的 。 第 三 个 假设 的 沃 尔 德 检验 
已 由 式 (7. 19) 给 出 ,而 且 不 能 拒绝 。 第 三 个 假设 与 第 四 个 假设 是 等 价 的 , 因为 
局 /BB 一 1 二 0 缆 舍 房 = ,但 第 四 个 检验 的 沃 尔 德 检验 已 由 式 (7. 13) 给 出 ,不 同 于 
式 (7. 19)。 利 用 和 矩阵 运算 ,可 计算 出 式 (7. 13) 统 计量 ,因为 大 部 分 软件 包 都 计算 线 
性 假设 的 沃 尔 德 检验 。 

给 定 约束 模型 的 估计 ,利用 式 (7, 21) 特 别 容易 计 算 似 然 比 检验 统计 量 。 对 前 
三 个 假设 来 说 ,约束 模型 是 通过 y 分 别 对 回归 元 (1,zzyze)、(l,zs) 以 及 (1,zr?， 
zs 十 x) 进行 泪 松 回归 而 估计 出 的 ,其 中 ,第 三 个 回归 使 用 了 如 果 Bs 二 B 则 Bsxi 十 
Ba Ta 一 房 (x3 二 x ) 的 条 件 。 从 一 个 似 然 比 检验 的 例子 9 对 第 二 个 假设 来 说 ， LK 
一 2L 一 238. 772 一 (242. 922) | 二 8. 30。 第 四 个 约 东 模型 原则 上 受 限 于 参数 为 非 线 
性 约束 的 ML 估计 ,少数 几 个 软件 包 可 以 这 样 做 。 不 过 ,对 约束 表述 方式 来 说 , 受 
约束 的 ML 估计 是 不 变 的 ,因此 ,对 于 第 三 个 约束 模型 ,可 得 出 相同 估计 值 ,进而 导 
致 同样 的 LR 检验 统计 量 。 

将 泊 松 模型 特殊 化 为 式 (7. 27) ,利用 式 (7. 25) 计 算 LM 检验 统计 量 。 该 统计 
量 利用 矩阵 命令 来 计算 ,各 种 不 同 的 约束 会 得 到 不 同 的 约束 MLE 估计 值 6 。 如 同 
似 然 比 检验 ,LM 检验 针对 变换 是 不 变 的 ,因此 ,第 三 个 假设 与 第 四 个 假设 的 LM 
检验 是 等 价 的 。 

LM 检验 统计 量 的 渐 近 等 价 形式 是 式 (7. 35) 给 出 的 统计 量 LM* 。 这 能 够 计 
算 成 为 源 自 辅助 回归 (7. 33) 的 解释 平方 和 。 对 泊 松 模型 来 说 ,s; =91n fy; )/98; 一 
(yi 一 exp(XiB))zj; ,对 考虑 的 假设 而 言 , 在 适当 约束 的 MLE 处 计算 。 计 算 统 计量 
LM* 比 计算 LM 更 容易 些 , 尺 管 像 LM 一 样 , 这 需要 约束 ML 估计 值 。 

在 这 个 带 有 生成 数据 的 例子 中 ,各 种 不 同 的 检验 统计 量 是 非常 相似 的 。 情 况 
并 不 总 是 这 样 的 。 特 别 地 ,与 LM 相 比 ,检验 统计 量 LM* 更 具有 不 好 的 有 限 样 本 
量 性 质 (finitersample size properties) ,即使 数据 生成 过 程 是 已 知 的 。 此 外 ,在 使 用 
真实 数据 的 应 用 中 ,数据 生成 过 程 不 可 能 是 完全 设 定 的 ,其 至 无 穷 大 样本 也 会 导致 
各 种 检验 统计 量 的 发 散 。 


7.5 非 ML 痛 景 下 的 检验 


沃 尔 德 检验 是 用 于 非 ML 背景 下 的 一 种 标准 检验 。 由 7.2 市 可 知 , 它 是 一 种 
一 般 的 检验 方法 ,利用 参数 估计 方差 矩阵 的 适当 三 明治 估计 值 , 它 总 是 可 实施 的 。 
其 唯一 的 局 限 性 是 ,在 一 些 应 用 中 ,实施 无 约束 估计 比 实施 约束 估计 更 困难 。 

建立 在 无 约束 模型 在 约束 售 计 值 处 计算 出 的 梯度 向 量 异 于 零 基础 上 的 活 尔 德 
检验 或 者 得 分 检验 ,同样 能 被 推广 到 非 ML 估计 量 上 。 不 过 ,通常 LM 检验 的 形式 
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i 


比 ML 情况 下 的 更 为 复杂 。 此 外 ,建立 在 辅助 回归 基础 上 的 LM 检验 的 最 简单 形 
式 , 对 错误 设 定 分 布 而 言 不 是 稳健 的 。 

” 似 然 比 检验 是 建立 在 施加 约束 的 目标 函数 之 极 大 值 与 无 约束 的 目标 极 大 值 之 
差 的 基础 上 。 由 于 此 差 值 通常 不 服从 卡 方 分布 , 故 除 似 然 函 数 之 外 ,这 通常 不 能 推 
广 到 目标 表 数 上 。 

为 了 完整 起 见 ,我 们 提出 ML 检验 推广 到 m 估计 量 以 及 有 效 广 义 惩 方法 估计 
量 上 的 概述 表示 。 正 如 已 注意 到 的 ,在 大 部 分 应 用 中 ,运用 较 简 单 的 沃 尔 德 检验 就 
足够 了 。 


7.5.1 基于 mm 仿 计 量 的 检验 


对 m 全 计量 进行 检验 ,就 是 对 那些 ML 估计 量 的 直接 扩展 ,只 是 不 再 可 能 使 
用 信息 矩阵 等 式 来 简化 该 检验 统计 量 ,而 且 似 然 比 检验 在 非常 特殊 的 情况 下 才 得 
以 推广 。 所 得 到 的 检验 统计 量 在 五 ,: h(8) = 二 0 下 服从 渐 近 分 布 ,同时 在 局 部 备 择 
假设 下 服从 相同 的 非 中 心 卡 方 分 布 。 

考察 对 具有 一 阶 条 件 六 一 2;s (9) 一 0 的 QN(0) 二 N 12g;(0) 求 极 大 值 的 m 
估计 量 。 定 义 gXg 阶 和 矩阵 A(0) 二 N712.9s(9)/98 ,有 日 B(0) 一 NN !'2,s;(0) s;(0)， 
hXg 阶 和 矩阵 R(0) 二 31In h(0)/98 。 设 0 与 9, 分 别 表示 无 约束 估计 量 与 约束 估计 
量 , 并 设 A 一 A(6.) 且 A 一 A(6,), 对 于 B 与 R 可 用 类 似 记 号 。 最 后 , 设 h 一 h(0,) 有 旦 
S; -一 S (0,), 

沃 尔 德 检 验 统计 量 是 建立 在 h 接近 于 0 的 基础 上 。 这 里 ; 

W=hLRN-IA-IBA-IR -hh (7. 37) 
由 5. 5. 1 节 知 ,因为 0. 的 稳健 方差 矩阵 估计 值 是 N -IAA-IBA-'。 为 了 计算 统计 推 
断 的 沃 尔 德 检验 ,具有 稳健 标准 误差 项 选项 的 软件 包 就 运用 了 这 种 更 一 般 形 式 。 

设 g(0) 一 9 In Qn(0) /99 表示 梯度 向 量 ,并 设 8 一 g(6,) 一 Fs;:。LM 检验 统计 
量 建 立 在 8 接近 于 0 的 基础 上 ,并 且 内 下 式 给 出 ; 

LM=Ng[A 'R'(RA 'BA’ 'R’) RA '|'g (7. 38) 
通过 建立 基于 式 (7. 29) 的 卡 方 检验 统计 量 来 获得 此 结果 ,其 中 , Ng 代替 
19lInL 上 /981;。 很 明显 ,这 个 检验 不 像 稳 健 的 沃 尔 德 检验 那样 可 直接 实施 。8.4 节 
将 给 出 稳健 形式 的 LM 检验 的 几 个 计算 例子 。 在 计算 机 软件 包 中 ,LM 检验 的 标 
准 实 施 常 常 不 是 LM 检验 的 稳健 形势 。 

对 似 然 比 检验 加 以 推广 并 不 容易 。 若 对 某 个 纯 量 a, 有 Bo 一 一 aAho, 即 IM 等 式 
的 较 弱 形式 , 则 将 它 推广 到 m 估计 量 上 。 在 此 类 特殊 情况 下 , 准 似 然 比 (QLR) 检 
验 统计 量 是 : 

QLR=—2N[Qy(0,)— Qy (0,) /ed, (7. 39) 
其 中 ,a 表示 无 约束 情况 下 获得 的 a 的 一 致 估计 值 [ 参 见 伍德 里 奇 (Wooldridge， 
2002 ,第 370 页 )]。 对 于 广义 线性 模型 ,条 件 Bo 二 一 aAo 成 立 (参见 5. 7.4 节 )。 于 
是 ,统计 量 准 似 然 比 等 价 于 约束 模型 与 无 约束 模型 偏差 之 差 , 即 建立 在 对 于 OLS 
和 具有 同方 差 误差 的 NLS 估计 来 说 的 约束 残 差 平方 和 与 无 约束 残 差 平方 和 之 差 


加 


基础 上 的 一 般 化 下 检验 。 对 一 般 的 准 ML 估计 来 说 ,满足 Bo 了 一 aAo，, 似 然 比 检验 
统计 量 服从 加 权 卡 方 和 分 布 ( 参 见 8. 5. 3 节 )。 


7.3.2 是 立 在 有 驳 GMM 仿 计 量 基 础 上 的 检验 


对 于 广义 矩 方法 ,各 种 检验 统计 量 就 有 效 广 义 矩 方法 而 言 是 最 简单 的 ,这 意味 
着 广义 短 方 法 估计 利用 了 最 优 加 权 和 矩阵 。 由 于 总 可 以 估计 出 最 优 加 权 和 矩阵 ,其 详 
细 内 容 如 6. 3. 5 节 所 述 ,因而 这 并 没有 对 实际 应 用 产生 很 大 束缚 。 

考察 建立 在 和 抢 条 件 ELm;(6) | 一 0 基础 上 的 广义 矩 方法 估计 。 [注意 ,第 6 章 的 
记号 在 这 里 有 些 变化 :本 章 用 h(0) 表 示 在 五。 下 的 约束 。] 当 利用 6. 3. 5 节 引 入 记 
号 时 ,有 效 的 无 约束 广义 矩 方法 估计 量 8. 对 Qn (0) 二 gn (90) Sw!'gn (0) 求 极 小 值 ， 
其 中 ,gwv(CO) 王 NI>2imi(9) ,并 且 SN 关于 S$ 二 VLgn (0) | 是 一 致 的 。 约 束 广 闵 矩 方 
法 的 估计 量 9, 被 假定 成 ,对 具有 相同 加 权 和 矩阵 Ss' 的 Qn (C0) 求 极 小 值 ,使 得 约束 
h(0) =0, / 

纽 书 和 韦 斯 特 (Newey and West，1987a) 曾 经 总 结 了 下 述 三 个 检验 统计 量 在 
Ho。 : h(0) = 二 0 下 都 渐 近 服从 X (4) 分 布 , 且 在 局 部 备 择 假设 下 服从 相同 的 非 中 心 卡 
方 分 布 。 

与 以 往 一 样 , 沃 尔 德 检验 统计 量 建 立 在 h 接近 于 0 的 基础 上 。 这 就 得 到 : 

W=h [RN-'(GS 'G)- IR’ |h (7. 40) 

因为 由 6. 3. 5 节 知 ,有 效 广义 和 矩 方 法 估计 量 的 方 盖 为 N -ICG SG) 1!, 其 中 ， 
Gn(0) 一 9gn (8)/909' ,并且 “表示 在 09, 处 所 计算 的 值 。 

有 效 广义 矩 方法 的 一 阶 条 件 是 G'S-1g 一 0。 不 过 。 当 在 6, 处 计算 时 ,LM 统 
计量 检验 了 这 个 梯度 向 量 是 否 接 近 于 0 ,得 出 : 


LM=N gS 'G(G’S 'G) G'S 's (7. 41) 


其 中 ,~ 表示 在 处 计算 的 值 ,同时 利用 6. 3. 3 节 的 假设 :VNgw (98,) 人 NT0,S,]， 


故 VNGS Tg NI[0,plim N-!G’S-1G]. 
对 有 效 广 义 算 方法 估计 量 来 说 ,对 上 日 标明 数 的 极 大 值 方面 的 差异 进行 比较 ,从 
而 得 出 差分 检验 统计 量 (difference test statistic)， 


D= N[Q» (0,) —Q»(0,)] (7. 42) 


如 同 W 与 LM, 统 计量 DD 在 Ho 下 渐 近 服从 X (A) 分 布 。 

甚至 在 似 然 情 况 下 ,这 个 最 后 的 统计 量 不 同 于 似 然 比 统计 量 , 因 为 它 使 用 了 不 
同 的 目标 函数 。，MLE 使 Qv(9) 王 一 N 2iln f(y;10) 极 小 化 。 由 6. 3.7 节 可 知 ， 
相反 , 渐 近 等 价 的 有 效 广 义 矩 方法 估计 量 对 二 次 形式 Qn (0) 二 N71(2;s;(0)) xX 
(22;s:(0) ) 求 极 小 值 ,其 中 ,s;(0) 二 91n f(yi;109)/98。 僧 硅 所 用 的 广义 矩 方 法 估计 量 
是 有 效 广 义 矩 方法 估计 量 , 通 常 就 可 以 运用 统计 量 D, 而 似 然 比 检验 则 只 有 在 式 
(7. 39) 后 面 所 提 及 的 m 估计 量 的 某 些 特殊 情况 下 才 得 以 推广 。 

对 于 和 矩 方 法 估计 量 , 也 就 是 说 ,在 恰好 识别 广义 给 方法 模型 中 ,D= LM 王 
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NQN (06,) ,因此 ,LM 与 差 检 验 是 等 价 的 。 就 D 而 言 ,出 现 简 化 ,因为 gwv(6. ) 一 0， 
从 而 Qn (0,)= 二 0。 对 于 LM ,会 使 式 (7. 41) 简 化 ,就 如 同 Gv 是 可 道 的 一 样 。 


7.6 检验 努 与 水 平 


本 章 余下 几 节 研究 ,运用 通常 的 计算 机 输出 进行 假设 检验 的 两 个 局 限 性 。 

首先 ,一 个 检验 很 少 有 能 力 去 区 别 零 假设 与 备 择 假设 。 于 是 ,该 检验 具有 低 的 
势 ,意味 着 当 零 假设 是 错误 的 时 候 ,拒绝 零 假设 的 概率 很 小 。 标 准 的 计算 机 输出 不 
会 计算 检验 的 势 ,但 计算 机 能 利用 渐 近 方法 (参见 本 节 ) 或 有 限 样本 蒙特 卡 罗 方 法 
(参见 7.7 节 ) 加 以 计算 。 当 经 验 论文 的 主要 贡献 是 对 特殊 假设 进行 拒绝 或 者 没有 
拒绝 ,该 论文 就 没有 理由 去 另外 阐述 针对 某 个 有 意义 备 择 假设 检验 的 势 。 

其 次 ,检验 的 真实 水 平 本 质 上 可 以 不 同 于 由 渐 近 理论 得 出 的 检验 名 义 水 平 。 
一 种 经 验 做 法 是 :为 了 得 到 单 变 量 推断 的 良好 近似 ,对 渐 近 理论 来 说 ,样本 量 
N>30 就 足够 了 ,但 经 验 做 法 不 能 推广 到 具有 回归 元 的 模型 上 。 不 好 的 近似 可 能 
出 现在 逼近 分 布 的 尾部 ,但 其 尾部 经 常用 于 获得 通常 诸如 5% 显 著 性 水 平 上 检验 
的 临界 值 。 实 际 上 ,对 从 大 样本 近似 中 获得 的 检验 统计 量 来 说 ,其 临界 值 常常 小 于 
建立 在 未 知 真实 分 布 基础 上 的 正确 临界 值 。 小 样本 精炼 企图 得 到 更 接近 于 准确 的 
临界 值 。 对 线性 回归 来 说 ,在 正 态 情况 下 ,得 到 准确 的 临界 值 ,利用 上 而 不 是 z, 以 
及 下 而 不 是 X 分 布 ,可 是 就 非 线性 回归 而 言 ,其 类 似 结果 将 准确 。 不 过 ,通过 蒙特 
卡 罗 方 法 (参见 7.7 节 ) 或 利用 自助 法 (参见 7. 8 节 与 第 11 章 ) ,可 使 小 样本 精炼 。 

借助 于 现代 计算 机 ,对 应 用 研究 所 用 到 的 检验 水 平 进行 修正 并 研究 其 检验 的 
势 ,相对 很 容易 。 我 们 以 某 种 详细 方式 来 阐述 这 个 被 忽略 的 专题 。 


7.6.1 检验 水 平 与 势 


假设 检验 导致 对 零 假 设 的 拒绝 ,或 者 导致 对 零 假 设 的 不 拒绝 。 当 日 , 不 正确 
时 拒绝 了 H, ,或 者 当 Ho 正确 时 没有 拒绝 Ho ,这 些 都 是 正确 决策 。 
同样 存在 两 种 可 能 的 错误 决策 : (1) 当 理 ,。 是 正确 时 ,拒绝 互 , , 称 之 为 第 工 类 
错误 (type I error) ;(2) 当 五 是 错误 时 ,没有 拒绝 Ho , 称 之 为 第 卫 类 错误 (type II 
error) 。 理 想 地 说 ,这 两 类 错误 的 概率 都 很 小 ;但 实际 上 ,一 类 错误 的 概率 减少 会 以 
为 一 类 错误 的 概率 增 大 为 代价 。 经 典 假设 检验 求解 方法 就 是 将 第 工 类 错误 概率 固 
定 在 某 个 特殊 水 平 上 ,通常 是 0.05, 而 对 第 下 类 错误 不 进行 设 定 。 
定义 检验 水 平 (Csize of a test) 或 显著 性 水 平 (significance ievel) 为 : 
Qa 一 PrL 第 工 类 错误 
二 Pr| 拒绝 瑟 。| 互 , 正 确 | 《17. 43) 
对 a 普遍 选取 为 0.01.0. 05 或 0. 10。 当 该 检验 统计 量 沙 人 所 定义 的 拒绝 域 中 ,就 
拒绝 假设 ,因而 检验 的 显著 性 水 平等 于 设 定 的 a 值 。 与 之 密切 相关 的 一 种 等 价 方 
法 是 ,计算 检验 记 值 (p-value) ,在 p 值 的 临界 显 关 性 水 平 上 , 等 假设 刚好 被 拒绝 ;而 
当 p 值 小 于 所 设 定 a 值 时 ,就 拒绝 昌 ,。 这 两 种 方法 只 需要 知道 检验 统计 量 在 零 假 


ee. 990...... 


和 


设 下 的 分 布 知识 ,7.2 节 已 经 对 沃 尔 德 检验 统计 量 进 行 了 阐述 。 
还 应 该 考虑 给 出 第 工 类 错误 的 概率 。 定 义 检 验 势 (power of a test) 为 : 


一 1 一 Prl 接受 万 ,| Ho 正确 | (7. 44) 
二 1] 一 Pr[ 第 卫 类 错误 | 


在 理论 上 ,检验 努 接近 于 1, 这 是 因为 第 下 类 错误 概率 接近 于 0。 想 要 确定 势 ,就 需 
要 检验 统计 量 在 五。 下 的 分 布 知 识 。 

在 实证 研究 中 ,对 检验 的 势 所 进行 的 分 析 典 型 地 被 忽略 了 ,给 定 水平 a, 检 验方 
法 通常 被 选择 为 在 理论 上 具有 势 的 情况 除外 , 势 与 其 他 备 择 的 检验 统计 量 高 度 相 
关联 。 从 理论 上 看 ,可 使 用 一 臻 最 大 势 (uniformly most powerful，UMP) 检 验 。 当 
对 简单 零 假 设 对 应 于 价 单 备 择 假设 进行 检验 时 ,一致 最 大 势 检 验 就 会 存在 。 于 是 ， 
由 营 一 芭 尔 逊 引 理 给 出 一 臻 最 大 势 检 验 是 似 然 比 的 函数 这 个 绪论 。 对 于 涉及 复合 
假设 的 更 一 般 检验 情况 来 说 ,通常 不 存在 一 致 最 大 势 检验 , 而且 可 设置 诸如 一 致 最 
大 势 单 边 检验 的 进一步 约束 。 实 际 上 ,把 对 势 的 考察 留 给 理论 经 济 计量 学 家 ,他 们 
使 用 理论 及 模拟 应 用 到 各 种 检验 方法 上 ,以 此 确立 哪 一 种 检验 方法 的 势 最 大 。 

不 过 ,在 任何 已 知 应 用 中 ,有 可 能 决定 检验 的 势 。 下 面 详 述 如 何 计算 沃 尔 德 检 
验 的 渐 近 势 , 它 等 于 完全 参数 情况 下 的 LR 检验 与 LM 检验 的 渐 近 势 。 


7.6.2 局 部 备 择 假充 


当 开 , 是 正确 时 ,由 于 势 是 拒绝 昌 , 的 概率 ,所 以 对 势 进行 计算 需要 获得 检验 
统计 量 在 备 择 假 设 下 的 分 布 。 对 显著 性 水 平 a 的 沃 尔 德 卡 方 检验 来 说 ,其 势 等 于 
PrFW>X, (4) 1H,]。 计 算 这 个 概率 需要 对 特定 的 备 择 假 设 加 以 设 定 , 因 为 HH,: 
h(9) 隆 0 是 非常 广泛 的 。 

一 种 明显 的 选择 是 固定 备 择 假设 h(6) 一 5, 其 中 ,6 表示 有 限 非 零 常 值 的 向 量 。 
有 时 候 , 数 量 8 称 为 假设 误差 ,而 且 较 大 的 假设 误差 会 导致 较 大 的 势 。 对 固定 备 择 
假设 来 说 , 沃 尔 德 检 验 统计 量 渐 近 具有 势 1, 因 为 它 始终 拒绝 零 假 设 。 为 了 理解 这 
一 点 ,注意 到 , 当 h(0) ==6, 沃 尔 德 检验 统计 量变 成 无 限 的 ,因为 ， 


W—=h (RN CR ) 'h 
SE (RN-ICR)-'6 


利用 8 入 gb ,因此 ,一 hC6，) 人 hb) 一 5, 且 Ce Cu。 由 此 可 得 ,因为 除 N 之 外 所 


有 项 都 是 有 限 的 且 非 零 的 , 故 双全 oo。 该 无 限 值 会 使 H。 总 是 被 拒绝 ,因为 它 的 
势 为 1, 进 而 具有 完全 势 1。 

因此 , 沃 尔 德 检验 统计 量 是 一 致 检验 统计 量 (consistent test statistic) ,也 就 是 
说 ,其 势 随 着 N-~>co 而 趋 于 1。 许 多 检验 统计 量 是 一 致 的 ,正如 许多 估计 量 是 一 致 
的 一 样 。 为 了 区 分 一 些 检验 统计 量 , 需 要 更 为 严格 的 准则 ,正如 相对 有 效 性 用 于 选 
择 估计 量 一 样 。 
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对 于 作为 根 - N (root-N ) 一 致 的 估计 量 来 说 ,我 们 考虑 局 部 备 择 序列 
(sequence of local alternatives) : 
H,: h(0)=é/vN (7. 45) 
其 中 ,6 表示 固定 常 值 的 向 量 , 满 足 6 了 关 0。 这 种 备 择 假设 序列 被 称 为 皮特 曼 漂移 
(Pitman drift) , 它 因 为 样本 量 傅 大 而 人 鳃 接近 于 零 假设 的 零 值 ,以 相同 的 速率 vN 用 
作对 9 的 标 度 ,获得 一 致 估计 量 的 非 退化 分 布 。 因 此 ,h(6) 的 备 择 假设 值 以 一 种 使 
随 着 样本 增加 ,任何 改进 有 效 性 都 无 效 的 速率 趋 于 零 。 有 关 对 局 部 备 择 给 出 的 更 
详细 的 解释 及 文献 ,可 参见 表 克 马 纳 斯 (MacManus，1991) 。 


7.6.3 沈 尔 德 检验 浙 人 这 郊 


在 局 部 备 择 结果 (7.45) 下 , 沃 尔 德 检验 统计 量具 有 非 退 化 分 布 、 非 中 心 卡 方 分 
布 。 这 使 得 确定 沃 尔 德 检验 的 势 成 为 可 能 。 

特别 地 ,正如 7. 6.4 节 将 证 明 的 ,在 日, 下, 式 (7.6) 所 定义 的 沃 尔 德 统计 量 渐 
近 服 从 X (h;4) 分 布 ， 其 中 ,X (hh;4) 表 示 非 中 心 卡 方 分 布 (noncentral chi-square 
distribution) ,该 非 中 心 参数 (noncentrality parameter) 为 : 


A= 广 6 (RoCo RI) 16 (7. 46) 


其 中 ,Ro 与 Go 已 由 式 (7.4) 与 式 (7.5) 定 义 。 因 此 , 沃 尔 德 检验 的 势 (Waild test of 
pewer) 是 给 定局 部 备 择 五。 为 正确 时 拒绝 电 。 的 概率 , 即 ， 


势 一 Pr WX (Ch) |W~X Oh;A)] (7. 47) 
图 7.1 画 出 当 水 平 或 显著 性 水 平分 别 为 10% .5 中 、 1 名 时 ,广泛 运用 的 对 纯 量 
假设 (二 11) 进行 检验 的 4 势 。 当 4 接近 于 1 时 ,其 势 等 于 水 平 ; 而 对 于 大 4 而 言 ， 


其 势 接近 于 1。 这 些 特性 对 />>1 也 成 立 。 特 别 是 , 势 关 于 式 (7. 46) 所 定义 的 非 中 
心性 参数 4 是 单调 递增 的 。 后 面 将 前 述 几 个 一 般 性 结果 。 


检验 势 作为 非 中 心 参 数 的 函数 





非 中 心 参数 4 


7.1 ， 当 非 中 心 参数 从 0 到 20 变动 时 ,具有 一 个 自由 度 、 三 种 不 同 检验 水 平 的 沃 尔 德 卡 方 检 
验 的 势 。 


第 一 , 势 关 于 零 假 设 与 备 择 假设 之 间 的 距离 是 递增 的 ,进而 6 及 4 都 是 递 
增 的 。 

第 二 ,对 于 给 定 备 择 6, 势 随 着 估计 量 0 的 有 效 性 而 增 大 ,进而 Ce 变 得 较 小 , 因 
此 ,4 会 比较 大 。 

第 三 , 当 检 验 水 平 增 大 时 , 势 会 变 大 ,而 第 二 类 错误 的 概率 则 会 减 小 。 

第 四 ,如 果 零 假设 下 的 几 种 不 同 检验 统计 量 都 服从 X(h), 且 在 备 择 假 设 下 都 
服从 非 中 心 Xx (4) ,那么 较 受 欢迎 的 检验 统计 量 是 带 有 最 高 (大 ) 非 中 心 参数 4 的 那 
一 种 ,从 而 势 是 最 大 的 。 进 一 步 地 ,具有 相同 非 中 心 参 数 的 两 个 检验 在 局 部 备 择 假 
设 下 是 渐 近 等 价 的 。 

最 后 ,在 实际 应 用 中 ,人 们 把 势 计 算 成 8 的 函数 。 特 别 地 , 对 于 设 定 的 备 树 0， 
利用 与 尺 及 C 有 关 的 参数 估计 值 9 。 使 用 式 (7. 46) 就 能 计算 估计 非 中 心 参数 4。 
7. 6. 5 节 将 阐述 这 种 势 的 计算 。 


7.6.4 浙 近 势 的 推导 
为 了 获得 H。 下 的 W 分 布 , 以 泰勒 级 数 展开 式 结果 (7. 9) 开 始 。 在 瓦 。 下 ,这 
被 简 化 为 : 


VNh(6) > NI[6, RCR’] (7. 48) 


从 而 VNh(b) 王 56。 因而 ,以 6 为 中 心 的 二 次 形式 在 互 。 下 服从 卡 方 分 布 。 
相反 ,由 式 (7. 6) 定 义 的 沃 尔 德 检验 统计 量 , 形 成 了 以 0 为 中 心 的 二 次 形式 ,并 
在 HH。 下 不 再 服从 卡 方 分 布 。 通 常 , 行 Z 一 人 [4， 021, 其 中 ,rank (9@) 王 A, 则 


z OQ 1z~X (h;4) ,其 中 ,X (h;4) 表 示 具 有 非 中 心性 参数 A=—#1 Qip 的 非 中 心 卡 
方 分 布 。 将 这 一 结果 应 用 到 式 (7. 48), 则 在 五 。 下 ,得 出 : 

Nh(6)’ (RoCR) -1h(6 ) Sx Ch;X) (7. 49) 
其 中 ,A 已 由 式 (7. 49) 定 义 。 
7.6.5 浙 近 鸭 的 计算 


为 了 阐明 势 是 如 何 随 6 而 变化 的 ,考察 纯 量 情况 下 对 系数 显著 性 的 检验 。 于 
是 , 式 (7. 46) 和 定义 的 非 中 心性 参数 是 : 


COVND) 
2c 2(sel 9 | 


这 种 近似 产生 于 Nse[6 ])? 对 < 的 估计 , 即 VN(C6 一 9) 的 方差 极限 ,这 里 ,se[L0 ] 表 
示 9 的 标准 误差 。 

考察 昌 ,: 90=0 的 沃 尔 德 卡 方 检 验 , 其 备 择 检验 为 :0 位 于 0 的 一 个 标准 误差 之 
内 3 即 H 


(7. 50) 


H, : 0=a X sef 0 | 
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这 里 ,把 seLb ] 处 理 成 一 个 常 值 。 从 而 , 式 (7. 45) 的 6/VN 等 于 a Xse[6 1], 由 此 式 
(7. 50) 简 化 成 一 导 /2。 因 此 , 沃 尔 德 检验 在 HH, 下 渐 近 服从 X (1;4), 其 中 ,4 二 
Q “712。 

由 图 7.1 知 ,很 明显 ,对 于 普遍 的 5% 显著 性 水 平 检 验 的 情况 来 说 , 当 a 一 2 时 ， 
其 势 小 于 0. 5; 当 4a 二 4 时 ,其 势 存 0. 5 左右 ;而 当 a 二 6 时 ,其 势 仍 小 于 0. 9。 因 此 ， 
对 备 择 假 设 表示 成 为 源 于 0 的 许多 标准 误差 而 言 ,不 明确 的 统计 显著 性 检验 能 够 
具有 低 的 势 。 从 直观 上 讲 , 车 9 二 2se[9 ], 则 0%=0 对 0 二 4se[9 ] 的 检验 大 致 具有 
0. 5 的 势 , 因 为 9 的 95% 置 信和 区间 大 约 是 (0,4se[6 ]) ,这 意味 着 ,9 二 0 或 0 二 4se[ 6 ] 
的 值 是 可 能 的 。 

举 一 个 更 具体 的 例子 ,假定 对 0 测量 由 于 培训 项 目 而 使 工资 上 涨 的 百分率 , 研 
究 发 现 ,9 二 6, 其 中 se[9 ] 二 4。 于 是 ,在 显著 性 水 平 5% 上 , 沃 尔 德 检验 没有 拒绝 
Ho ,这 是 因为 W==(6/4)? 二 2. 25 二 Xo 06 (1) 一 3.96。 该 项 研究 结论 表明 ,培训 项 目 
并 不 是 统计 显著 的 。 不 过 ,人 们 不 应 该 把 这 一 点 解释 为 如 下 含义 : 当 这 种 检验 具有 
低 的 势 时 ,培训 项 目 没 有 什么 效果 ,这 种 情况 具有 很 高 的 概率 。 例 如 ,前 面 分 析 表 
明 ，H : 9 二 0 检验 对 HH : 0 一 16, 即 相对 大 的 培训 效果 具有 仅 为 0. 5 的 势 ,因为 
4Xse[9 ]=16。 产 生 低 势 的 原因 包括 :小 样本 量 .大 的 模型 误差 方差 以 及 回归 元 变 
动 幅 度 小 。 

在 简单 情况 下 ,为 了 达到 一 个 给 定 的 想 要 的 势 水 平 , 可 能 需要 求解 估计 最 小 样 
本 量 的 逆 问 题 。 这 种 方法 在 医学 研究 中 尤其 流行 。 

安德鲁 斯 (Andrews，1989) 为 了 确定 在 实证 背景 下 的 参数 空间 区 域 , 对 哪 一 个 
检验 可 能 具有 低 的 势 , 给 出 了 利用 非 中 心性 参数 的 更 正式 的 研究 。 他 提供 了 许多 
应 用 例子 ,这 些 例子 很 容易 确定 ,对 于 有 意义 的 备 择 假设 ,这 些 检 验 具有 低热 。 


7.7 有 汪 特 卡 罗 人 研究 


迄今 为 止 ,我 们 讨论 的 统计 推断 均 依 赖 于 渐 近 结果 。 对 小 样本 来 说 ,除了 在 正 
念 性 条 件 下 对 线性 回归 模型 的 线性 约束 进行 检验 之 外 ,可 利用 的 解析 结果 几乎 很 
少 。 尽 管 如 此 ,小 样本 结 采 却 能 通过 导 特 卡 罗 人 研究 来 获得 。 


7.7.1 松 述 


下 面 是 一 个 检验 统计 量 的 小 样本 性 质 的 蒙特 卡 罗 研 究 (Monte Carlo study) 的 
例子 。 比 如 说 , 设 样 本 量 N 为 40, 并 在 五 。 模型 下 随机 生成 容量 为 40 的 10 000 个 
样本 。 对 于 每 一 个 复制 (样本 ?者 可 构成 关注 的 检验 统计 量 以 及 检验 是 ,, 当 检验 统 
计量 落 在 拒绝 区 域 中 ,就 拒绝 五 。, 这 通常 利用 渐 近 结果 来 加 以 确定 。 

检验 统计 量 的 真实 水 平 (true size) 或 实际 水 平 (actual size) , 正 是 复制 中 那些 落 
入 拒绝 区 域 的 检验 统计 量 的 部 分 。 从 理论 上 讲 , 这 接近 于 名 义 水 平 Cnominali size)， 
即 对 检验 选取 的 显著 性 水 平 。 例 如 , 若 检 验 在 5% 名 义 检 验 水 平 上 是 0. 05, 则 希望 
真实 水 平 接近 于 0. 05 。 

要 确定 小 样本 中 的 检验 势 , 就 需要 牢 外 模拟 ,其 样本 是 该 模型 位 于 复合 备 择 假 
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设 瓦 。 在 可 能 模型 的 一 个 或 多 个 特殊 设 定 下 生成 的 。 将 势 计算 成 为 复制 中 拒绝 零 
假设 的 部 分 ,或 者 利用 相同 的 检验 作为 确定 真实 水 平 ,或 者 利用 拒绝 域 的 检验 的 校 
正 水 平 形 式 (size-cerrected version) ,使 名 义 水 平等 于 真实 水 平 。 

对 脓 特 卡 罗 研 究 可 直接 实施 ,但 设计 好 的 蒙特 卡 罗 研 究 却 存在 着 许多 微妙 差 
别 。 一 个 极 好 的 讨论 ,参见 戴维森 和 麦 金 农 (Davidson and MacKinnon，1993 ) 。 


7.7.2 杜 特 大 罗 内 容 


尝 一 个 壹 特 卡 罗 研 究 的 例子 ,我们 考虑 probit 模型 中 对 斜率 系数 的 统计 推 斯 。 
下 面 的 分 析 并 不 依赖 于 probit 模型 的 知识 。 
数据 生成 过 程 是 probit 模型 ,二 值 回 妇 元 y 以 概率 


PrlLy 一 1|X] 一 里 (8 Bx) 


等 于 1, 其 中 ,@() 表 示 标 准 正 态 cdf,x~NL0,1], 并 且 (Bi ,8 ) 一 (1，2)。 

对 于 该 数据 生成 过 程 ,很 容易 生成 数据 (y,z)。 首 先 , 回 归 元 z 是 从 标准 正 态 
分 布 中 随机 抽取 的 。 于 是 ,由 14. 4. 2 节 知 , 当 z 十 x>0, 对 因 变 量 y 设置 为 1, 和 否则 
设置 为 0, 其 中 ,u 表示 从 标准 正 态 分 布 中 随机 抽取 。 对 该 数据 生成 过 程 来 说 ,有 一 
半 时 间 y= 二 1, 而 男 一 半 时 间 > 一 0。 

在 每 一 次 模拟 中 ,都 要 抽取 > 与 y 的 六 个 新 观测 值 ,并 从 > 对 z 的 probit 回 
归 中 获得 MLE。 一 种 可 选择 的 方式 是 ,在 每 次 模仿 中 ,都 使 用 相同 的 回归 元 zx 的 
N 个 抽取 ,然后 再 抽取 y。 前 一 个 方案 对 应 于 简单 随机 抽样 ,而 后 一 个 方案 则 对 应 
于 以 z 为 条 件 的 分 析 , 或 “重复 试验 中 国定 的 "分析, 参见 4. 4.7 节 。 

综 特 卡 罗 人 研究 经 常 考察 一 系列 的 样本 量 。 这 里 ,我 们 简单 地 设 N 二 40。 也 可 
以 通过 设 非 常 大 的 NN 来 检验 项 目 , 比 如 说 N 一 10 000, 从 而 蒙特 卡 罗 结 果 应 非常 接 
近 于 新 近 结果 。 

为 了 确定 实际 检验 水 平 ,需要 进行 大 量 模拟 ,因为 这 要 依赖 于 分 布 的 尾部 而 不 
是 中 心 的 特性 。 为 了 对 真实 水 平 a 进行 检验 ,而 执行 S 次 模拟 ,那么 零 假设 被 正确 
拒绝 的 次 数 比例 是 源 目 S 次 二 项 试验 的 结果 ,其 二 项 式 的 均值 为 w, 而 方差 为 
a(1 一 a)/S。 因 此 ,95% 的 蒙特 卡 罗 会 估计 出 检验 水 平 于 a 土 1. 96Vall 一 a)/S 之 
加 。 由 于 仅 100 次 模拟 是 不 够 的 ,例如 , 当 a 二 0.05 时 ,这 一 区 间 为 (0.007，0. 093)。 
对 10 000 次 模拟 而 言 ,95% 的 区 间 是 更 准确 的 , 当 4 分别 等 于 0.01.0.05,.0. 10、 
0. 20 时 ,该 区 间 分 别 等 于 (0. 008，0. 012)、(0. 046，0. 054)、(0. 094，0. 106) 以 及 
(0. 192，0. 208) 。 这 里 使 用 S 二 10 000 次 模拟 。 

运用 蒙特 卡 罗 模 拟人 研究 时 所 产生 的 一 个 问题 是 ,对 某 个 模拟 样本 而 言 , 模 型 可 
能 是 不 可 估计 的 。 例 如 ,考察 只 有 一 个 截 距 与 一 个 标示 变量 的 线性 回归 。 如 果 标 
示 变 量 在 模拟 样本 中 恰好 总 取 同 一 个 值 ,比如 说 0, 那么 它 的 系数 就 不 能 单独 地 从 
截 距 那 里 加 以 识别 。 在 模拟 样本 中 , 当 所 有 的 > 值 都 为 0 或 所 有 的 y 值 都 为 1， 
probit 模型 与 其 他 二 值 结 果 模 型 就 会 产生 类 似 问 题 。 一 种 标准 方法 是 要 省 略 这 种 
模拟 样本 ,同时 写 出 当 出 现 这 种 问题 时 允许 模拟 循环 计算 的 计算 机 编码 ,但 人 们 对 
该 方法 持 批 评 观 点 。 在 该 例 中 ,就 N= 二 40 而 言 ,不 会 产生 此 类 问题 ,然而 , 当 N 二 30 
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时 则 会 出 现 此 类 问题 。 
7.7.3 不 桦 本 丛 倚 


在 离开 检验 内 容 之 前 ,考察 MLE fb 的 小 样本 性 质 及 其 估计 的 标准 误差 
se[ B2 ] 。 

通过 10 000 次 模拟 ,8; 具有 均值 1. 201 且 标 准 差 0.452 ,而 se[ Bj 具有 均值 
0. 359。 因 此 ,小 样本 的 MLE 有 向 上 的 偏 倩 ,这 是 因为 平均 远 远 大 于 Bs 二 1。 由 
于 se[ BB ] 平 均 远 远 小 于 记 标准 差 , 故 小 样本 的 标准 误差 是 向 下 偏 倚 的 。 


7.7.4 窜 验 水 平 
考察 日, ; 二 1 对 昌 H,; 六 天 1 的 双 侧 检验 ,利用 沃 尔 德 检验 ， 
之 一 Bl 
Wh sel B, | 


其 中 ,se[pB 表示 利用 14. 3. 2 节 给 出 的 方差 矩阵 估计 出 的 MLE 标准 误差 , 它 是 负 
的 期 望海 赛 和 矩阵 的 逆 。 给 定 dgp, 从 渐 近 形式 上 看 ,z 服从 标准 正 态 分 布 ,是 z: 服 
从 卡 方 分 布 。 另 外 ,目标 是 求 出 这 种 如 何 更 好 地 逼近 小 样本 的 分 布 。 

图 7.2 给 出 S 二 10 000 时 计算 z 值 的 密度 ,其 中 的 密度 是 利用 第 9 章 的 核 密度 
估计 值 ,而 不 是 从 直方 图 上 画 出 的 。 这 增 大 了 标准 正 态 密度 。 很 明显 , 渐 近 结果 是 
不 准确 的 ,尤其 在 上 尾部 分 ,比如 说 当 在 5% 水 平 上 进行 检验 时 ,其 差异 显然 大 到 
足以 导致 水 平 扭曲 。 同 理 , 通 过 模拟 ,z 具有 均值 0. 114 关 0 且 标 准 差 0. 956 关 1。 


活 尔 德 检验 的 蒙特 卡 罗 模 拟 





疾 尔 德 检验 统计 量 


7.2 为 了 对 比 ,此 图 还 画 出 沃 尔 德 检验 统计 量 的 密度 :斜率 系数 等 于 通过 带 有 标准 正 态 密 度 
的 蒙特 卡 罗 模 拟 而 计算 出 的 值 。 数 据 是 由 probit 回归 模型 生成 的 。 


表 7.2 的 前 两 列 给 出 沃 尔 德 检验 名 义 水 平 & 为 0.01.0.05.0. 10 和 0.20 时 的 
名 义 水 平 与 实际 水 平 。 实 际 水 平 是 10 000 次 模拟 满足 |z| 之 zz 的 比例 ,或 等 价 地 
满足 z? 守 x (1) 的 比例 。 很 明显 ; 当 a 过 0. 1 时 ,检验 的 实际 水 平 远 远 小 于 名 义 水 
平 ;相反 ,特别 小 样本 校正 假定 z 服从 自由 度 为 38 的 分布 , 且 当 |z| 守 tz (38) 时 
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就 要 加 以 拒绝 。 不 过 ,得 出 了 其 至 更 小 的 实际 水 平 ,这 是 因为 tuz(38) 之 zu。 
表 7.2 probit 回归 的 沃 尔 德 检验 水 平 与 势 的 例子 


名 义 水 平 (a) 实际 水 平 实际 势 渐 近 势 
0.01 0. 005 0. 007 0. 272 
0. 05 0. 029 0. 226 0. 504 
0. 10 0. 081 0. 608 0. 628 
0. 20 0. 192 0. 858 0. 755 


a y 的 数据 生成 过 程 是 满足 Pr[ y= 二 1| 二 (0 十 及 zx) 且 样 本 量 N= 二 40 的 probit。 该 检验 是 关于 斜率 系数 
是 否 等 于 1 的 双 侧 沃 尔 德 检验 。 实 际 水 平 是 源 于 S==10 000 次 模拟 并 满足 应 一 1 计算 出 来 的 ,而 势 是 源 于 
10 000 次 模拟 并 满足 B= 二 2 计算 出 来 的 。 


综 特 卡 罗 模 拟 还 能 用 于 获得 校正 水 平 的 临界 值 。 因 而 ,10 000 次 = 的 模拟 值 
的 下 2. 5% 分 位 数 与 上 2.5% 分 位 数 分 别 是 一 1. 905 与 一 2. 003。 由 此 可 知 ,满足 实 
际 水 平 0.05 的 非 对 称 拒绝 域 是 z 二 一 1. 905 与 z 汪 2. 003 ,与 |z | 守 1. 960 相 比 ,该 
拒绝 域 较 大 。 


7.7.$ 检 愉 数 


考察 昌 ,: BB 一 2 条 件 下 的 沃 尔 德 检验 势 。 给 定 se[ Bs ] 具 有 平均 值 0. 359, 我 们 
希望 势 是 合理 的 ,因为 B 这 个 值 位 于 远离 零 假 设 访 二 1 的 2 一 3 个 标准 误差 。 表 
7.2 的 最 后 两 列 给 出 沃 尔 德 检 验 的 实际 势 与 名 义 势 。 

实际 势 可 通过 与 实际 水 平 相 同 的 方式 来 获得 , 即 10 000 次 模拟 中 满足 |z| 守 
zz 的 比例 。 其 唯一 变化 是 ,生成 y 的 模拟 中 , 忆 二 2 而 不 是 1。 当 a 一 0.01 或 
0. 05, 即 实际 水 平 尤其 小 于 名 义 水 平时 ,实际 势 是 非常 低 的 。 

沃 尔 德 检验 的 名 义 水 平 是 利用 昌 , 条 件 下 渐 近 非 中 心 X (1,) 分 布 来 确定 的 ， 


由 式 (7. 50) 知 一 方 (B/V)?/se[ 记 于 一 3 X1/0. 359? 二 3. 88, 由 于 局 部 备 择 假 


设 是 HH,: 一 1 二 6/VN, 因 而 对 B= 二 2 而 言 ,6/VN= 二 1, 该 渐 近 结果 并 不 精确 , 它 
却 提供 关于 a 二 0. 10 与 0. 20 的 一 个 有 用 势 估 计 值 , 即 真实 水 平 紧密 地 与 名 义 水 平 
相 匹 配 。 


7.7.6 蒙特 卡 罗 应 用 


上 和 面 的 讨论 强 莫 了 运用 绽 特 卡 罗 分 析 时 要 计算 检验 的 势 与 水 平 。 通 过 令 N 
很 大 ,蒙特 卡 罗 分 析 对 求 出 估计 量 的 小 样本 偏 倚 以 及 确定 估计 量 是 一 致 的 ,实际 上 
也 是 相当 有 用 的 。 利 用 当今 的 计算 机 软件 ,这 类 蒙特 卡 罗 方 案 非常 容易 实施 。 

当 给 定 x 时 y 的 条 件 分 布 是 完全 参数 化 时 ,可 对 实际 数据 进行 蒙特 卡 罗 分 析 。 
例如 ,考察 具有 实际 数据 的 probit 模型 估计 。 在 每 一 次 模拟 时 ,回归 元 都 要 在 样本 
值 处 加 以 设置 ,如 果 抽 样 框 是 重复 样本 中 国定 回归 元 的 情形 ,就 需要 生成 二 值 因 变 
量 y 的 新 值 。 这 将 依赖 于 使 用 的 参数 8 值 。 设 B1 ,…, PB 表示 来 自 原先 样本 的 
probit 估计 值 , 并 考察 日, ; Bi 二 0 的 活 尔 德 检验 。 为 了 计算 检验 水 平 ,对 于 7 关 &, 通 
过 令 B= 二 B 且 B;= 二 0 来 生成 S 模 拟 样 本 ,然后 计算 模拟 的 日 ,: B= 二 0 被 拒绝 的 比 
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例 。 为 了 估计 对 特定 备 择 假设 五: Bb; 二 1 的 沃 尔 德 检验 的 势 ,比如 说 ,在 生成 y 
时 ,生成 满足 对 于 7 天 上 有 Bi 一 Bs 且 Bj 二 1 的 y, 同 时 计算 模拟 的 Ho: B 王 0 被 拒绝 
的 比例 。 

在 实际 应 用 中 ,相当 多 的 微观 经 济 计量 分 析 是 基于 估计 量 的 ,而 不 是 建立 在 完 
全 参数 模拟 的 基础 上 。 于 是 ,为 了 实施 蒙特 卡 罗 分 析 , 需 要 额外 分 布 假设 。 

或 者 , 势 可 用 渐 近 方法 而 不 是 有 限 样 本 方法 来 获得 。 此 外 ,下 一 节 阐 述 的 自助 
法 能 用 于 ,通过 更 精致 的 渐 近 理论 来 得 到 水 平 。 


7.8 自助 法 例子 


目 助 法 是 脓 特 卡 罗 模 拟 的 一 种 变形 ,因为 此 种 模拟 具有 较 少 的 参数 假设 和 较 
少 的 额外 编程 等 引 人 注 目 之 处 ,这 超出 了 估计 模型 首先 要 求 的 程度 。 为 使 自助 法 
的 基本 成 分 有 效 , 估 计量 要 确实 服从 极限 分 布 ,同时 自助 法 再 抽样 的 量 是 iid 的 。 

目 助 法 具有 两 种 一 般 性 应 用 。 第 一 种 应 用 是 ,自助 法 能 用 作 一 种 可 供 选 择 的 
方式 ,来 计算 没有 渐 近 精炼 时 的 统计 量 。 当 解析 公式 很 复杂 时 ,这 尤其 有 益 于 计算 
标准 误差 。 第 二 种 应 用 是 ,自助 法 能 用 作 执 行 通常 渐 近 理论 的 精炼 ,以 此 提供 对 检 
验 统计 量 分 布 的 更 好 的 有 限 样本 通 近 。 

在 进入 第 11 章 完 整 研究 之 前 ,我 们 均 用 自助 法 实施 沃 尔 德 检验 。 


7.8.1 利用 标准 浙 近 理论 推断 


再 次 考虑 probit 例子 ,其 中 二 值 回 归 元 y 以 概率 pp 一 B(y 十 8x) 等 于 1, 其 中 、 
@(，) 表 示 标 准 正 态 cdf。 关 注 内 容 为 ,在 显著 性 水 平 0.05 上 对 Ho: 8 二 1 与 HH,: 
Bl 进行 检验 。 这 里 的 分 析 并 不 需要 probit 模型 知识 。 

生成 一 个 样本 量 N= 二 40 的 样本 。 使 用 probit 极 大 似 然 估计 ,得 出 8 二 0. 817 
且 sj 一 0. 294, 其 中 ,标准 误差 建立 在 一 A 的 基础 上 ,因此 ,检验 统计 量 z= (1 一 
0.817)/0. 294 一 一 0. 623 。 

利用 标准 渐 近 理论 ,由 于 zzs 二 1.96, 所 以 得 到 5% 的 临界 值 为 一 1.96 与 
1. 96, 从 而 没有 拒绝 五 。。 


7.8.2 不 人 台 渐 近 社 烘 的 月 助 潜 


自助 法 的 出 发 点 是 从 通 近 再 抽样 到 总 体 , 人 参见 11. 2. 1 节 。 因 此 ,通过 从 原始 
样本 再 抽样 得 到 成 对 自助 法 。 

因此 ,通过 从 初始 数据 {(y ,zx )，i 一 1,…,N) 中 进行 重复 抽取 ,构成 容量 为 N 
的 B 个 拟 样 本 。 例 如 ,第 一 个 容量 为 40 的 拟 样本 ,可 以 是 (yi,zi) 出 现 一 次 ,而 
(yz ,Xz ) 出 现 两 次 ，(ys ,zs) 没 有 出 现 , 等 等 。 从 而 ,得 到 关注 参数 8 的 B 个 估计 值 
BY ,…, 惨 ,这些 估计 值 用 于 估计 初始 8 的 分 布 。 

例如 ,假定 用 于 估计 probit 模型 的 计算 机 程序 报告 出 8, 但 没有 标准 误差 s;。 
自助 法 可 解决 这 一 问题 ,因为 能 运用 源 于 B 个 自助 法 拟 样本 的 B87 ,…, B82 估计 标 
准 差 sj ,,,,。 当 已 知 该 标准 误差 估计 时 ,可 实施 对 6 的 沃 尔 德 假设 检验 。 
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对 probit 沃 尔 德 检验 例子 来 说 ,所 得 到 的 8 标准 误差 的 自助 法 估计 值 是 
0. 376 ,进而 得 出 z 二 (1 一 0. 817)/0. 376 王 一 0. 487。 由 于 一 0. 487 位 于 (一 1.96， 
1. 96) 中 , 故 在 5% 上 不 能 拒绝 互 。。 

用 自助 法 进行 检验 假设 ,不 会 导致 小 样本 水 平 的 改进 。 不 过 ,在 许多 应 用 中 ， 
如 采用 别 的 方法 获得 估计 量 的 标准 误差 很 困难 ,用 这 种 方法 能 节省 大 量 时 间 。 


7.8.3 带 有 半 近 粮 炮 的 月 助 浅 


某 些 目 助 法 能 使 xz 分 布 具有 更 好 的 渐 近 通 近 。 在 实际 水 平 可 能 更 接近 于 名 义 
水 平 0. 05 的 意义 上 ,这 样 做 可 能 获得 更 好 的 有 限 样本 临界 值 。 第 11 章 对 此 给 予 
详细 讨论 。 现 在 ,我 们 就 阐述 这 一 方法 。 

再 次 从 初始 数据 中 通过 重复 抽取 得 到 拟 容量 为 N 的 样本 。 在 每 个 拟 样本 中 
估计 probit 模型 ,并 对 第 5 个 拟 样 本 计算 z 二 ( 忆 一 B)/sss ,其 中 ,6 表示 初始 估计 
值 。 于 是 ,初始 检验 统计 量 = 的 自助 法 分 布 就 是 z? ,…,z5 的 经 验 分 布 ,而 不 是 标 
准 正 态 的 。 该 经 验 分 布 的 上 2. 5 百 分 位 数 与 下 2. 5 百 分 位 数 给 出 了 自助 法 临 
界 值 。 

对 上 面 例 子 来 说 ,这 里 有 B= 二 1 000, 求 出 z 的 经 验 自 助 法 分 布 的 上 2. 5 百 分 位 
数 与 下 2. 5 百 分 位 数 分 别 为 一 1. 89 与 1.80。 于 是 ,在 5%% 水 平 上 进行 检验 ,自助 法 
临界 值 是 一 2. 62 与 1. 83, 而 不 是 通常 的 1. 96。 由 于 初始 样本 检验 统计 量 
z 二 一 0.623 位 于 (一 2. 62,1. 83) 之 内 , 故 没 有 拒绝 日 ,: 8 一 1。 同 理 , 可 计算 自助 法 
的 pp 值 。 

和 前 一 节 的 上 自助 法 不 同 , 此 处 的 新 近 性 得 到 了 改进 ,这 是 因为 学 生化 的 检验 统 
计量 z 是 渐 近 中 枢 的 (参见 11. 2. 3 节 ) ,而 估计 量 8 则 不 是 。 


7.9 应 用 研究 


微观 经 济 计 量 学 考虑 到 要 运用 估计 量 的 方差 矩阵 的 稳健 估计 值 , 其 重点 为 建 
立 最 小 分 布 假设 基础 上 的 统计 推断 。 然 而 ,从 稳健 推断 上 来 看 ,这 样 做 没有 什么 意 
义 , 倘 夺 分布 假设 失效 , 则 会 产生 更 严重 的 估计 量 非 一 致 性 的 复杂 性 ,尽管 这 种 情 
况 并 不 是 对 全 部 MLS 佑 计量 都 会 发 生 。 

许多 软件 包 在 执行 估计 量 命令 时 ,都 提供 “稳健 ?标准 误差 选项 。 在 微观 经 济 
计量 学 软件 包 中 , 稳健 经 党 意味 着 异 方差 性 一 致 ,而 并 没有 预防 其 他 诸如 聚集 
Cclustering) 的 复杂 性 问题 ,参见 24. 5 节 , 它 还 能 引起 无 效 的 统计 推断 。 

稳健 推断 通常 利用 沃 尔 德 检 验 来 实施 。 沃 尔 德 检验 对 非 线 性 假设 的 重新 参数 
化 来 说 ,具有 不 变性 弱点 。 尽 管 这 可 能 通过 执行 适当 的 自助 法 来 加 以 消除 。 虽 然 
在 一 些 情 况 下 ,LM 检验 的 相对 简单 稳健 形式 是 可 行 的 ,但 通常 LM 检验 标准 的 辅 
助 回归 与 LM 检验 的 计算 机 软件 包 执 行 都 不 是 稳健 的 (参见 8. 4 市 )， 

检验 的 势 可 能 是 弱 的 。 理 想 状 态 下 ,人 们 报告 出 对 于 某 个 有 意义 的 备 择 假设 
的 势 。 当 这 样 做 不 行 时 ,正如 7.6 节 所 述 ,人 们 应 谨慎 对 竺 那些 源 目 假设 检验 的 纺 
论 ,除非 参数 得 到 非常 准确 的 估计 。 
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此 外 ,从 渐 近 理论 推导 出 的 检验 的 有 限 样本 量 是 一 个 问题 。 第 11 章 将 详细 阅 
述 的 自助 法 会 潜在 地 得 到 假设 检验 与 置信 区 间 , 并 具有 更 好 的 有 限 样本 性 质 。 

统计 推断 可 能 是 相当 脆弱 的 ,这 些 问题 对 实践 者 而 言 是 重要 的 。 当 0 一 1. 96 
时 ,考察 统计 显著 性 的 双 侧 沃 尔 德 检验 ,同时 假定 检验 统计 量 实际 上 服从 标准 正 态 
分 布 。 如 果 s; 二 1. 0, 那 么 上 一 1.96 且 p 值 为 0.050。 不 过 , 当 标 准 误差 被 低估 
20%( 因 此 ,正确 的 t 二 1.57) 时 ,真实 的 p 值 就 会 很 大 , 即 0. 117; 而 当 标 准 误差 被 
高 估 20%( 因 此 ,t 二 2. 35) 时 ,其 真实 p 值 是 很 小 的 , 即 0. 014。 


7. 10 ”文献 注释 


古里 耶 元 斯 和 蒙 福特 (Gourieroux and Monfort，1989) 与 戴维森 和 老人 金 农 
(Davidson and MacKinnon，1993) 所 搂 写 的 经 济 计 量 学 教材 ,都 对 假设 检验 给 予 
了 详细 阑 述 。 本 章 曾 述 仅仅 考察 等 式 约束 的 情况 。 对 于 不 等 式 约 束 的 检验 ,参见 
古里 耶 克 斯 、 起 利和 和 莹 福 特 (Gourieroux，Holly and Monfort，1982) 的 线性 情况 ， 
以 及 沃 拉克 (Wolak，1991) 的 非 线性 情况 。 对 假设 检验 来 说 , 当 在 零 假 设 下 ,参数 
位 于 参数 空间 的 边界 上 时 ,检验 就 会 失效 ,参见 安德鲁 斯 (Andrews，2001)。 

7.3 三 种 经 典 检验 方法 的 其 中 一 种 用 图 示 论 述 ,已 由 布 斯 (Buse，1983) 
给 出 。 

7.5 纽 书 和 韦 斯 特 (Newey and West，1987a) 曾 阐述 经 典 检验 对 广义 和 矩 方法 
佑 计 的 扩展 。 

7.6 戴维森 和 寿 金 农 (Davidson and MacKinnon，1993) 对 热 进 行 大 量 讨 论 ， 
并 解释 显 性 零 假 设 与 备 择 假设 和 隐 性 零 假 设 与 备 择 假设 之 间 的 区 别 。 

7.7 关于 蒙特 卡 罗 的 研究 ,参见 戴维森 和 才 金 农 (Davidson and MacKinnon， 
1993) ,以 及 京 德 里 (Hendry，1984) 。 

7.8 归功 于 埃 弗 龙 (CEfron，1979) 的 目 助 法 将 在 第 11 章 详细 曾 释 。 
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7-1 假定 由 一 个 样本 得 出 估计 值 名 = 一 5,0: 一 3, 其 渐 近 方差 估计 值 分 别 为 4 
与 2, 并 且 人 与 6 的 相关 系数 等 于 0. 5。 假 如 参数 估计 值 服 从 渐 近 正 态 性 。 

(a) 当 水 平 为 0.05 时 , Ho: be 一 100 对 也 :0 天 100 进行 检验 。 

(b) 对 于 Y= 二 ez , 求 95% 的 置信 区 间 。 

7-2 考察 模型 y= 二 exp(a 十 Br) 十 e 的 NLS 回归 ,其 中 ,a、8 以 及 zz 都 表示 纯 
量 , 日 e~AML0,1]。 注 意 ,为 了 简单 起 见 ,w = 二 1, 并 不 必 佑 计 。 想 要 检验 Ho: 8 二 0 
对 H,: 8 天 0。 

(a) 给 出 a 与 B 的 无 约束 MLE 的 一 阶 条 件 。 

(b) 给 出 a 与 8B 的 无 约束 渐 近 方差 矩阵 。 

(c) 给 出 a 与 8B 的 约束 MLE 的 显 式 解 。 

(d) 为 计算 LM 检验 的 OPG 形式 ,请 给 出 辅助 回归 。 


/ 假设 检验 
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(e) 对 LM 检验 的 初始 形式 ,给 出 完整 解释 。 注 意 , 它 将 涉及 在 a 与 8 的 约束 
MLE 处 计算 出 的 无 约束 对 数 似 然 的 倒数 。[ 这 比 (a) 一 (b) 部 分 更 困难 。 

7-3 假定 在 两 个 通 人 式 参 数 模型 间 进 行 选 择 。 这 两 个 模型 密度 的 关系 是 
gl(y|z,B,a 王 0) 二 f(y|zx,B) ,为 了 简单 起 见 ,B 与 a 都 是 纯 量 。 如 果 g 是 正确 的 密 
度 , 那 么 建立 在 密度 f 基础 上 的 8 的 MLE 是 非 一 致 的 。 模 型 f 对 模型 g 进行 检 
验 , 即 惠 ,: a 一 0 对 HH,: a 关 0 进行 检验 。 假 定 通 过 ML 估计 ,得 出 下 述 结 果 。 
(1) 模型 f; B86 二 5.0，se[B = 二 0.5 以 及 ln 了 = 一 106;(2) 模型 g: b= 3.0， 
se[8 ] 二 1.0, 4 二 2.5, se[& 二 1.0 以 及 InL 二 一 103。 已 知 前 面 信息 ,下 述 检 验 并 
不 是 全 部 可 行 的 。 倘 奉 有 足够 信息 ,进行 检验 并 叙述 你 的 结论 。 若 信息 不 够 充分 ， 
请 说 明 这 一 点 。 

(a) 在 水 平 0.05 上 ,实施 日 , 的 沃 尔 德 检 验 。 

(b) 在 水 平 0.05 上 ,实施 互 。 的 拉 格 朗 日 乘 子 检验 。 

(c) 在 水 平 0.05 上 ,实施 日 , 的 似 然 比 检 验 。 

(d) 在 水 平 0.05 上 ,实施 互 。 的 之 斯 曼 检 验 。 

7-4 当 数 据 生 成 过 程 为 y~ 一 Ly,100 1 时 ,标准 差 为 10, 并 有 目 样 本 量 为 N= 
10, 当 和 名义 水 平 为 0.05 时 ,考察 Ho; pr 一 0 对 旦 ,: py 关 0 的 检验 。 检 验 统 计量 是 通 
常 的 检验 统计 量 1 二 /Vs/10, 其 中 ,一 (1/9) ;Cy 一 y)。 实 施 10 000 次 模拟 ， 
回答 下 述 问 题 。 

(a) 如 果 使 用 正确 的 有 限 样本 临界 值 士 to.0zs (8) 一 十 2. 306, 求 1 检验 的 实际 
水 平 。 存 在 水 平 扭曲 吗 ? 

(b) 如 果 使 用 渐 近 到 近 临 界 值 十 zo.02s 三 士 1. 960, 求 1 检验 的 实际 水 平 。 存 在 
水 平 扭曲 吗 ? 

(c) 如 有 果 使 用 临界 值 二 to 0zs (8) 二 十 2. 306, 求 1 检验 对 备 择 假设 日 ,: 1 二 1 的 
势 。 该 检验 对 这 个 特定 备 择 假 设 有 势 吗 ? 

7-5 运用 16. 6 节 的 健康 支出 数据 。 此 模型 是 DMED 的 probit 回归 ， 
DMED 表示 良好 健康 支出 的 标示 变量 ,对 应 的 17 个 回归 元 已 列 在 16. 6 节 的 第 二 
段 中 。 已 知 表 16. 1 的 第 一 列 , 你 应 求 其 估计 值 。 在 水 平 0. 05 上 ,考察 自 测 健 
康 ‘12(self-rated health) 标 示 变 量 HLTHG、HLTHEF 以 及 HLTHP 的 统计 显著 性 
的 联合 检验 。 

(a) 实施 沃 尔 德 检 验 。 

(b) 实施 似 然 比 检验 。 

(c) 为 了 执行 LM 检验 ,请 提出 一 个 辅助 回归 (这 需要 编写 额外 的 某 种 程序 )。 


[1] self-rated health, 中文 译 为 自 测 健康 ,这 个 概念 最 早 是 由 萨 奇 曼 (Suchman) 等 人 于 1958 年 提出 ， 
它 是 个 体 对 其 健康 状况 的 主观 评价 和 期 望 。 后 来 ,许多 学 者 对 这 一 概念 不 断 充实 与 完善 。 目 前 , 自 测 健康 法 
已 成 为 国际 上 比较 通用 的 健康 测量 方法 之 一 。 


设 定 检验 与 模型 选择 


吓人 


8.1 引 论 


在 实际 应 用 中 ,微观 经 济 计量 建 模 存在 两 个 重要 方面 :一 是 确定 模型 是 否 被 
正确 设 定 , 二 是 对 可 供 选 择 模型 所 进行 的 选取 。 就 这 两 方面 而 言 ,尤其 是 当 模 型 
出 现 艇 套 时 ,运用 前 一 章 曾 述 的 假设 检验 方法 是 可 行 的 。 本 章 将 闸 述 其 他 几 种 
方法 。 

第 一 ,m 检验 ,比如 条 件 符 检验 ,是 对 模型 所 利用 的 和 矩 条 件 是 香 得 到 满足 而 进 
行 检 验 。 除 和 矩 条 件 没 有 被 利用 到 估计 中 而 用 于 检验 之 外 ,这 一 方法 在 思想 上 类 似 
三 义 矩 方法 (GMM)。 这 类 检验 在 概念 上 与 第 7 章 假 设 的 检验 截然 不 同 ,因为 可 供 
选择 的 假设 模型 没有 显 式 表述 ， 

第 二 , 壹 斯 曼 检 验 是 对 两 个 估计 量 之 间 的 差异 进行 检验 ,如 果 此 模型 被 正确 设 
定 ,那么 两 个 估计 量 是 一 致 的 ;但 倘 奇 模型 被 错误 设 定 , 则 出 现 发 散 。 

第 三 ,对 舰 套 模型 进行 检验 需要 特殊 方法 ,因为 通常 假设 检验 方法 只 有 当 一 个 
模型 藤 套 在 男 一 个 模型 之 内 时 ,才能 应 用 。 

最 后 ,计算 和 报告 那些 作为 非 检验 统计 量 的 模型 适合 性 统计 量 是 有 益 的 。 例 
如 ,类 似 R* 形式 可 用 于 测算 对 非 线 性 模型 的 拟 合 优 度 。 

原则 上 讲 , 这 些 方法 可 用 于 模型 设 定 、 估 计 、 检 验 和 评价 的 全 部 过 程 。 该 整套 
过 程 能 从 一 般 模型 到 特殊 模型 ,或 者 从 特殊 模型 到 更 一 般 模型 ,用 于 捕获 最 重要 的 
数据 特征 。 

8. 2 节 阐 述 一 些 检验 ,包括 条 件 矩 检验、 信息 和 矩阵 检验 和 卡 方 拟 合 优 度 检 验 。 
之 斯 曼 检验 将 在 8. 3 节 加 以 阐述 。 几 种 普遍 的 错误 设 定 检验 在 8. 4 节 讨论 。8. 5 
节 关 注 非 嵌 套 式 模型 之 间 的 区 别 。8. 2 节 一 8. 5 节 普 遍 使 用 的 容易 执行 的 一 些 检 
验 ,都 依赖 于 强 分 布 ,并 且 / 或 者 在 有 限 样 本 下 执行 效果 不 好 。 这 种 担心 阻碍 了 对 
这 些 检验 的 部 分 运用 ,但 此 类 担心 已 过 时 了 ,因为 在 许多 情况 下 ,将 在 第 11 章 阅 述 
的 自助 法 可 对 这 些 弱 点 加 以 校正 。8. 6 节 考 虑 对 模型 后 续 推 断 结 果 的 检验 。 模 型 
诊断 将 在 8.7 市 加 以 阐述 。 
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8.2 m 检验 


m 检验 ,譬如 条 件 矩 检验 ,是 一 种 一 般 的 设 定 检验 方法 , 它 包 括 许多 通行 的 设 
定 检验 。 当 使 用 极 大 似 然 法 进行 估计 时 ,这 种 检验 利用 辅助 回归 就 很 容易 执行 ,在 
这 种 情况 下 模型 假设 检验 是 尤其 合适 的 。 然 而 , 当 估 计量 建立 在 最 小 分 布 假设 的 
基础 上 时 ,实施 起 来 往往 更 困难 一 些 。 

育 先 , 我 们 引进 检验 统计 量 与 计算 方法 ,然后 通过 重要 例子 阐明 检 验 。 


8.2.1 有 检验 
假定 模型 蕴含 总 体 矩 条 件 (population moment condition ) 
五 0 Elm Cw:;, 0) |=0 (8. 1) 


其 中 ,w 表示 可 观测 向 量 , 通 常 因 变量 是 y, 回归 元 是 x, 有 时 还 有 额外 变量 z,9 表 
示 gX1 维 参数 向 量 ,而 m;(*) 表 示 gqX1 维 向 量 。 当 线性 模型 y= 一 xB 十 u 中 的 z 被 
省 略 时 ,一 个 简单 例子 是 EL(y 一 x B)z1 一 0。 特 别 地 ,对 完全 参数 模型 来 说 ,m,(*) 
存在 许多 备 选 者 。 / 

m 检验 (mrtest) 是 对 相应 样本 怎 (sample moment) : 


Ny 
my(0)=N! D>,m(w,0) (8. 2) 
i=1 


接近 于 0 的 检验 ,该 方法 类 似 于 沃 尔 德 检验 ,其 中 ,h(6) 王 0 表示 对 h(0 ) 接近 于 0 
所 进行 的 检验 。 

检验 统计 量 通过 类 似 于 7. 2. 4 节 所 详 述 的 沃 尔 德 检验 方法 来 获得 。8. 2. 3 节 
将 证 明 , 藻 式 (8. 1) 成 立 , 则 : 


~ dd 
VNmn(0)—> NI[0, V,| (8. 3) 


其 中 ,Vs 由 后 面 的 式 (8, 10) 定 义 , 与 沃 尔 德 检验 情况 相 比 ,Vw 表现 得 更 复杂 ,这 是 
因为 m,(w;， 0 ) 具 有 两 个 随机 变异 来 源 ,此 处 的 w 和 0 都 是 随机 的 。 

于 是 , 卡 方 检验 统计 量 通 过 取 相 应 的 二 次 形式 而 得 到 。 因 此 , 式 (8.1) 的 m 检 
验 统 计量 (mtest statistic) 是 ， 


M= Nmn (0 )’ V» mn (0 ) (8. 4) 

硅 矩 条 件 (8.1) 成 立 , 则 M 淘 近 服从 x (rank| V |) 分布 。 当 MX, (有 ) 时 ,在 显著 
性 水 平 a 上 ,m 检验 就 拒绝 和 矩 条 件 (8. 1) ;否则 ,不 拒绝 和 矩 条 件 (8. 1) 。 

一 种 复杂 情况 是 ,Vs 并 不 是 满 秩 h 的 。 例 如 ,如 果 估 计量 8 本 身 设 mv(8 ) 分 

晤 的 线性 组 合 为 0, 就 是 此 种 情况 。 在 某 些 情况 下 ,例如 OIR 检验 ,Vs 仍 是 满 秩 

的 ,而 且 可 计算 出 M, 但 卡 方 检 验 统 计量 仅仅 具有 rank| Vs jj 个 目 由 度 。 在 男 一 些 

情况 下 ,Va 本 身 不 是 满 秩 的 。 于 是 ,最 简单 的 方法 是 删 去 (一 rank[L Va」) 矩 条 件 ， 

并 只 利用 这 个 和 矩 条 件 的 子 集 实施 m 检验 。 一 种 可 供 选 择 的 方式 是 ,使 用 全 部 矩 条 
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件 集合 ,只 是 式 (8. 4) 中 的 V。' 要 用 Vs 代替 ,Vs 表示 Va 的 广义 道 。 和 矩阵 V 的 
Moore-Penrose 广 羡 逆 满足 VV VV 二 VV VV ==V  、(CVV = 一 VV- 以 及 
(V_V) =V- V。 当 YVw 的 秩 比 满 秩 小 时 ,严格 地 讲 , 式 (8. 3) 不 再 成 立 ,因为 多 元 正 
态 要 求 满 秩 的 Vs, 但 给 定 这 些 条 件 , 式 (8. 4) 仍 成 立 。 

从 概念 上 看 ,m 检验 方法 非常 简单 。 当 样本 估计 (8.2) 的 二 次 型 离 0 甚 远 ,就 
拒绝 矩 约束 (8. 1) 。 由 于 Vs 是 相当 复杂 的 (参见 8. 2. 2 节 ) ,并 且 需 要 选取 和 矩 m(。) 
加 以 检验 (参见 8. 2. 3 节 一 8. 2. 6 节 的 一 些 重要 例子 ) 和 解释 拒绝 式 (8. 1) 的 理由 
(参见 8.2. 2 节 ) ,因此 ,计算 M 是 一 个 挑战 。 


8.2.2 计算 mm 统计 量 


存在 几 种 计算 m 统计 量 的 方法 。 

第 一 ,利用 8. 2. 3 节 给 出 的 Yn 分量 一 致 估计 ,总 是 可 以 直接 计算 Vs ,从 而 计 
算 M。 大 多 数 应 用 研究 者 都 避 开 这 种 方法 ,因为 它 需 要 矩阵 计算 。 

第 二 ,运用 自助 法 (bootstrap) (参见 11. 6. 3 节 ), 因 为 自助 法 能 提供 控制 
hn (0 ) 二 N12,mCw;, 9 ) 中 所 有 变异 来 源 的 Vs 估计 值 。 

第 三 ,在 某 些 情况 下 ,类 似 于 7. 3.5 节 给 出 的 LM 检验 情况 ,运用 辅助 回归 
(auxiliary regressions) 能 计算 M 的 渐 近 等 价 形式 ,而 这 并 不 需要 计算 Vs。。 这 些 辅 
助 回 归 也 可 利用 目 助 法 ,以 便 获 得 渐 近 精炼 (参见 11. 6. 3 节 ) 。 我 们 将 阐述 几 种 重 
要 的 辅助 回归 。 

利用 极 大 似 然 估计 量 的 辅助 回归 

当 在 似 然 框架 下 进行 推断 时 ,模型 设 定 检验 尤其 是 值得 做 的 ,因为 通常 对 密度 
的 任何 错误 设 定 ,都 能 导致 极 大 似 然 估计 的 非 一 致 性 。 幸 运 的 是 , 当 运 用 极 大 似 然 
估计 时 ,容易 实施 m 检验 。 

具体 地 讲 , 当 6 是 极 大 似 然 估 计 值 时 ,7. 3. 5 节 推 广 的 LM 检验 结果 会 产生 下 
述 情况 :m 检验 的 渐 近 等 价 形式 由 辅助 回归 (auxiliary regression) 


1 一 证 站 十 Sm +u; 《8. 5 ) 


获得 ,其 中 ， mm; — I (CY; » 已 , Ou ) ;8; —9 ln fy: | x; ,0)/900 | OM 表示 第 1 个 观测 值 对 
得 分 的 贡献 ,而 Fy jx ，09) 表 示 条 件 密度 函数 ,这 通过 


M* = NR: (8. 6) 


来 计算 ,其 中 ,Rs 表示 在 7. 3. 5 节 结 尾 处 定义 的 非 中 心 R?。 等 价 地 讲 , M 等 于 
ESS, , 即 源 自 回归 (8.5) 的 非 中 心 解释 平方 和 ( 拟 合 值 平方 和 ); 或 者 ,M' 等 于 NN 一 
RSS, 这 里 的 RSS 表示 源 自 回归 (C8. 5) 的 残 差 平方 和 。 在 瑟 , 下 ,M 渐 近 服 从 
X ( 广 ) 。 

检验 统计 量 M 被 称 为 m 检验 的 梯度 外 积 (Couter product of the gradient， 简 记 
为 OPG) 形 式 , 并 且 它 是 LM 检验 辅助 回归 的 推广 (参见 7. 3. 5 闻 )。 尽 管 容 易 计 
算 外 积 梯度 形式 ,但 它 具 有 大 水 平 扭曲 (large size distortions) 不 好 的 小 样本 性 质 。 
但 是 ,类 似 于 LM 检验 ,这 些小 样本 问题 可 以 很 方便 地 利用 目 动 法 来 加 以 减少 ( 参 
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风 11. 6. 3 节 )。 

在 某 些 非 极 大 似 然 背景 下 ,检验 统计 量 M* 同样 是 适宜 的 。 每 当 EL3m/390 jj 一 
一 ELms j ,就 可 应 用 辅助 回归 (人 参见 8. 2. 3 节 )。 巾 广义 信息 和 矩阵 等 式 (参见 5. 6.3 
五 ), 对 极 大 似 然 估 计 来 说 ,当期 望 是 设 定 密度 函数 f(:) 时 ,这 个 条 件 就 成 立 。 在 
一 些 情况 下 ,在 比较 弱 分 布 的 假设 下 , 它 同样 是 成 立 的 。 

当 ELamyV230 ] 二 0 时 的 辅助 回归 

在 一 些 应 用 中 , 除 满足 式 (8. 1) 之 外 ,m,(w;, 909) 满足 : 


E| am;(Cw;， 8)/36 | 1=0 (8, 7) 


于 是 ,可 以 证 明 VYNww (0 ) 的 渐 近 分 布 与 XNmn (9 的 一 样 ,因此 , Vw = 
plim N 2;mo mio ,这 可 通过 Vo=N”! 2 ;hh 一 致 估计 出 。 除 辅助 回归 (Cauxilia- 
ry regression ) 是 更 简单 的 


1 一 让 :0 Tw (8. 8) 


之 外 ,此 检验 统计 量 可 类 似 于 式 (8.5) 加 以 计算 ,检验 统计 量 M” 等 于 NN 倍 的 非 中 
心 化 R?，。 

倘若 式 (8. 7?) 成立, 不 像 极 大 似 然 估 计 那 样 ,对 任何 根 号 N 的 一 致 估 计量 8 来 
说 ,这 个 辅助 回归 都 是 有 效 的 。 少 数 例 子 均 会 遇 到 条 件 (8. 7); 参 见 8. 2. 9 节 的 
例子 。 

即使 式 (8. 7) 不 成 立 ,比较 简单 回归 (8. 8) 仍 然 可 以 作为 一 个 指南 ,这 是 因为 它 
对 M 的 正确 值 即 mm 检验 统计 量 施加 了 一 个 下 界 。 当 拒绝 这 个 较 简 单 回归 时 ,就 一 
定 拒绝 式 (8. 1)。 

其 他 辅助 回归 

者 ml(y,x,0) 与 s(y,X,0) 能 适当 地 因 式 分 解 , 则 对 式 (8. 5) 与 式 (8. 8) 进 行 可 供 
选择 的 辅助 回归 是 可 能 的 。 

第 一 ,对 某 些 满足 VLr(y,x,69)] 一 1 的 共同 纯 量 晃 数 ~(") 来 说 , 若 s(y,x,0) 二 
g(xX,0)rCy,X,0) 有 是 mCy'x,9) 一 h(Cx,0)r(Cy,x,9) ,通过 极 大 似 然 法 估计 , 渐 近 等 价 
于 式 (8.5) 的 回归 就 是 源 于 产 对 名 与 处 回归 的 NR:。 

第 二 ,对 某 个 满足 VLv(y,x,9) 二 1 的 纯 量 函数 v(*) 来 说 , 若 m(y,x,0) 一 
h(x,0)v(y,x,9) 且 E[9m/399 一 0, 则 渐 近 等 价 于 式 (8. 8) 的 回归 是 源 于 名 对 hh 
归 的 NR.。 有 关 更 详细 的 内 容 , 参 见 伍 德里 奇 (Wooldridge，1991) 。 

在 特殊 背景 下 ,存在 另 一 些 辅助 回归 。8. 4 节 将 给 出 一 些 例子 ,怀特 (White， 
1994) 对 此 给 出 相当 一 般 的 研究 。 


8.2.3 m 共 哈 统计 量 的 挫 时 


为 了 避免 计算 Vs 即 式 (8. 3) 中 的 方差 矩阵 ,m 检验 通常 利用 辅助 回归 或 自助 
法 来 实施 。 为 了 完整 起 见 ,本 节 将 推导 Vw 的 实际 表达 式 , 同 时 提供 判断 辅助 回归 
(8. 5) 与 式 (8. 8) 的 正确 理由 。 

一 个 关键 内 容 是 获得 式 (8. 2) 定 义 的 thw (9 ) 分 布 。 想 要 得 到 前 面 的 分 布 极为 
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党 和 


复杂 ,因为 mv(b ) 是 随机 的 ,其 原因 有 两 个 ;一 个 是 随机 变量 w;, 另 一 个 是 在 估计 
量 8 处 计算 。 
假定 8 是 m 估计 量 或 估计 方程 估计 量 , 对 于 某 个 函数 s(*), 它 是 ，; 


N 
Ds Cw,0 ) —0 (8. 9) 
;一 ] 


的 解 ,这 里 不 一 定 有 aln f(y|x,0) /39, 并 做 出 通常 机 截面 假设 :对 于 不 同 ;数据 是 
独立 的 。 从 而 ,可 以 证 明 VNimw (6 ) 人 NE0,Vj] ,如同 式 (8. 3) 一 样 ,其 中 ， 
Vn = Ho J Ho (8. 10) 
Ho 为 一 个 hX(h 十 q) 阶 矩阵 , 即 ; 
H,=[b—C,A, | (8.11) 


其 中 ,Co 一 plimn N 129mi0/90 ,A 一 plim N 1!2,9sio/90 ,并 且 有 (hh 十 gq) (hh 十 g) 
阶 算 阵 : 


N 7 N / 

:=1 Dio Mjo :| Mio Sio 

~N f N 7 
> ,13i0 Mio > ,1 Si0 Si0 


其 中 ‘Mo mwW, ,00),so0 CO—S; (WwW; ,00)., 
为 了 推导 式 (8. 10) ,在 6。 附近 实施 一 阶 泰勒 级 数 展开 ,得 到 . 


VNihw (6 )=/Nmw (0) + /NGO 一 gu) 上 on) (8.13) 


J 一 plim N | (8. 12) 


对 于 式 (8. 9 定义 的 9 来 说 ,这 蕴含 : 


N 


VNiw (6 ) = 去 之 m (00) — Co A 记 > so Ho) (8.14) 
其 中 ,使 用 了 mw 二 Nm ,9mw/0 二 N -D9m/939' 全 Co, 并 且 把 通常 的 一 阶 
泰勒 级 数 展开 式 用 于 式 (8. 9), VN(0 一 96,) 与 A.1'N -3,so。 具 有 相同 的 极限 分 
布 。 将 式 (8. 14) 写 成 . 


] 3 
, 和 
VNmv(0)=[L 一 CA | 、 十 oo 人 1) (8. 15) 
J 


通过 运用 极限 正 态 积 准 则 (定理 A. 17) ,得 出 式 (8. 10) ,这 是 因为 式 (8. 15) 中 积 的 
第 二 项 在 Ho 下 服从 极限 正 态 分 布 ,其 均值 为 0, 方差 为 J,。 

为 了 计算 式 (8. 4) 中 的 M, 通过 使 用 一 致 估计 值 代 替 vw 的 每 一 个 分 量 , 得 出 
Va 的 一 致 估计 值 VY,。 例 如 ,通过 C=N ! ,9m;/90 | ;来 一 致 千 计 Co ,等 等 。 这 
样 做 尽管 总 是 可 行 的 ,但 当 利用 辅助 回归 时 就 比较 容易 。 
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第 一 , 当 6 是 极 大 似 然 估计 值 时 ,考察 辅助 回归 (8. 5)。 由 广义 信息 和 矩阵 等 式 
(参见 5. 6. 3 节 ) ,ELamio/30 ] 王 一 ELmiosioj, 其 中 ,对 极 大 似 然 估 计 值 来 说 ,我 们 
专门 人 钱 宪 $s; — 9 ln f (yi, x;,0)/90 。 由 于 可 进行 大 量 们 化 ,CG 一 plim N Xx 
2 ;Mo Sio , 而 Au 一 一 plim N 2 ;Si0Si0 ,这 也 出 现在 Jo 矩阵 中 。 故 得 到 检验 的 OPG 
形式 。 有 关 更 详细 的 内 容 , 参 风 纽 志 (Newey，1985), 以 及 帕 革 和 维 拉 (Pagan and 
Vella，1989) 。 

第 二 ,就 辅助 回归 (8. 8) 而 言 ,注意 到 , 若 ELamio/30 ] 一 0, 则 Co 一 0, 因 此 了 ,一 
[0], 从 而 HuJoHo 一 plimn N 二 miomio。 


8. 2.4 条 任 第 花 狼 


归功 于 纽 韦 (Newey，1985) 和 陶 享 (Tauchen，1985) 的 条 件 矩 检验 ,是 对 无 条 
件 抢 约束 的 m 检验 ,该 无 条 件 抢 约束 由 基本 条 件 抢 约束 来 获得 。 

举 一 个 例子 ,考察 线性 回 妇 模型 > 一 xX 3 十 上 。 关 于 OLS 估计 量 一致 性 的 标准 
假设 是 ,误差 具有 条 件 零 均值 ,或 等 价 地 ,为 条 件 矩 约束 : 


ELy 一 X BIxj=0 (8. 16) 


第 6 章 曾 考察 利用 某 些 隐 仿 无条件 矩 约束 作为 抢 方 法 或 广义 矩 方法 估计 的 基础 。 特 
别 地 , 式 (8. 16) 列 含 ELx(Cy 一 xXG)] 一 0。 求解 相应 的 样本 矩 条 件 2;x (Cy; 一 XB) 二 
0 ,得 出 8 的 OLS 估计 量 。 不 过 , 式 (8. 16) 蕴 含 ,许多 其 他 和 矩 条 件 在 估计 中 没有 得 
到 应 用 。 考 察 无 条 件 矩 约束 : 


、 Elg(x)(y—x'B)|=0 
其 中 ,向 量 g(x) 应 该 不 间 于 x, 这 已 在 OLS 估计 中 使 用 过 。 例 如 ,g(x) 可 以 包括 
回归 元 向 量 x 分 量 的 平方 项 或 者 交叉 积 。 这 表明 ,建立 在 相应 样本 和 矩 thv ( 6)== 
N -12) ,g(x;) (一 %G) 基 础 上 的 检验 是 否 接近 于 0。 
更 一 般 地 讲 , 对 某 一 个 纯 量 轴 数 r~(* ) ,考察 条 件 扎 约束: 


FlrCy,x,0)|x|=0 (8. 17) 
条 件 矩 检验 | conditional (CM) moment test ] 是 建立 在 隐 含 无 条 件 气 约束 
ELg(Cx)rCy,x,9)] 一 0 (8. 18) 


基础 上 的 m 检验, 其 中 ,对 g(x) 与 /或 r(y,x,0) 进 行 选取 ,以 使 这 些 约束 没有 用 于 
估计 之 中 。 

基于 似 然 模 型 会 导致 许多 潜在 约束 。 比 r(y,x,0) 完全 参数 模型 稍 差 一 些 的 
例子 包括 y 一 u(x,0) ,以 及 (y 一 u(x,0))? 一 g(x,0) ,其 中 ,uC ) 表 示 设 定 条 件 均 值 
畏 数 ,o (x,0) 表 示 设 定 条 件 方差 涵 数 。 


8.2.5 剑 符 从 息 算 降 检 验 


对 极 大 似 然 估计 来 说 ,信息 和 抢 阵 等 式 获 含 可 能 用 于 m 检验 的 一 些 矩 约束 , 因 
为 它们 通常 在 求 极 大 似 然 估 计 值 时 没有 得 到 利用 。 
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-= m= Er Ph 


具体 地 讲 , 由 5. 6. 3 节 的 信息 矩阵 等 式 得 出 : 
ELVechLD; (yx ,6o)]j 一 0 (8. 19) 
其 中 ;9Xg 阶 秆 阵 D; 由 


D, Gyo%,00) =— Sh + mf on (8. 20) 
给 出 ,而 期 望 是 针对 假定 的 条 件 密度 f; 二 f(y;1x;,9) 选 取 的 。 这 里 ,Vech 表示 半 
回 量 算 子 (vectorhalf operator) ,以 与 向 量 算 子 (Vec operator) 相同 的 方式 对 上 矩阵 D， 
的 列 进行 到 放 , 只 是 对 称 和 矩阵 D, 的 仅仅 gc 十 1)72 个 元 素 得 以 蕉 放 。 
怀特 (White，1982) 提 出 了 相应 的 样本 和 挎 


N 
dn (0) = NT >, Vech[D, (Cy,,x;, Ow )] (8. 21) 
;一 】 


是 否 接 近 于 0 的 信息 矩阵 检验 (information matrix test) 。 利 用 式 (8. 4) ,信息 和 矩阵 
检验 统计 量 是 、 


IM~— Ndv (0 )V 'dv(0) (8. 22) 


其 中 ,怀特 (White，1982) 曾 给 出 的 关于 VY 的 表达 式 是 相当 复杂 的 。 归 功 于 兰 开 斯 
等 (Lancaster，1984) 与 切 售 (Chesher，19847 的 更 加 容易 实施 的 此 检验 方法 ,是 运 
用 辅助 回归 (8. 5) ,由 于 MLE 可 用 于 式 (8. 21) ,所 以 辅助 回归 (8. 5) 是 可 应 用 的 。 

信息 矩阵 检验 还 能 用 于 式 (8. 19) 的 约束 中 的 子 集 上 。 确 实 应 该 这 样 做 , 当 gq 
很 大 时 ,进而 用 于 检验 的 约束 个 数 g(g 十 1)/2 就 非常 大 。 

当 信 息 和 矩阵 检验 统计 量 的 值 很 大 , 则 拒绝 信息 矩阵 等 式 约束 ,并 得 出 密度 被 针 
误 设 定 的 结论 。 通 常 ,这 意味 着 极 大 似 然 估计 量 是 非 一 致 的 。 在 一 些 特殊 情况 下 ， 
尽管 标准 误差 需要 建立 在 方差 矩阵 三 明治 形式 的 基础 上 ,5. 7 节 已 经 详 述 , 极 大 似 
然 估 计 还 是 一 致 的 。 


8.2.6 上 不 万 拟 合 优 度 检 验 


对 完全 参数 模型 来 说 ,一 个 有 用 的 设 定 检验 是 把 预测 概率 与 样本 有 关 频 率 进 
行 比 较 。 当 这 些 比 较 相 差 甚 远 ,该 模型 就 不 是 一 个 好 模型 。 

以 离散 iid 随机 变量 y 来 开始 ,y 以 概率 pi,pz,…,pj 取 了 个 可 能 值 之 一 ， 
2 pj 二 1。 对 概率 正确 设 定 ,可 通过 对 理论 上 的 频率 Np; 等 于 观测 频率 N 这 
一 等 式 进 行 检验 来 加 以 确定 ,其 中 ,p; 表示 样本 取 第 7 个 可 能 值 的 小 数 。 皮 尔 还 卡 
方 拟 合 优 度 检验 统计 量 |LPearson chi-square goodness-of-fit text (PCGF) statistic | 
是 : 





J —— 
、 (Np; — Np;): 
PCGF 一 > ， 
1 Np; 


在 零 假 设 : 概 率 pi,p:，,…,pj 是 正确 的 条 件 下 ,该 统计 量 渐 近 服从 X (J 一 1) 分 布 。 
对 此 检验 加 以 推广 ,以 便利 用 回归 预测 其 概率 (参见 习题 8. 2)。 考 察 离散 y 具有 


(8. 23) 
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概率 p; 一 pp; (x; ,0) 的 多 项 式 模型 。 于 是 ,用 Pp 一 N71! 2>,F; (x;,0 ) 代 替 式 (8. 23) 
中 的 p; ,而 且 如 果 8 是 多 项 式 MLE, 那 么 再 次 得 到 卡 方 分 布 , 只 是 因 估 计 8 而 减少 
自 申 度 个 数 (J 一 dim(9) 一 1 参见 安德鲁 斯 (Andrews,1988a) ] 。 

除 多 项 式 模型 之 外 ,对 回归 模型 来 说 , 式 (8. 23) 的 统计 量 PCGF 可 通过 把 y 分 
成 胞 腔 加 以 计算 ,但 统计 量 PCGF 已 不 再 服从 卡 方 分 布 。 不 过 ,可 使 用 密切 相关 的 
m 检验 。 为 了 推导 这 一 统计 量 , 把 > 的 范围 分 割 成 J 个 互 不 胞 腔 , 这 J 个 胞 腔 张 成 
了 yy 的 所 有 可 能 值 。 设 di (y;) 表 示 标 示 变 量 , 当 y; 属于 第 ; 个 胞 腔 时 , 则 它 等 于 


1 ,否则 等 于 0 。 设 pi (Xi ;0) 一 | fly; | Xi ,0) dy; 表示 第 1: 个 观测 值 落 入 第 


yi; 所 第 个 胞 及 
i 个 胞 腔 的 预测 概率 ,其 中 ,f(y|x,9) 表 示 y 的 条 件 密度 ,同时 首先 假定 参数 向 量 6 
是 已 知 的 。 奉 条 件 密度 被 正确 设 定 , 则 : 


Eld.; (yi)— p; (x;,0) |=0. 7 一 (8. 24) 
一 日 以 明确 向 量 记号 表示 区 放 所 有 J 个 和 矩 ,得 出 : 
ELd(y ) 一 px .0) |=0 (8. 2D ) 


其 中 ,di 与 p; 均 表 示 了 X1 维 回 量 , 其 第 7 个 元 素 分 别 为 do 与 2。 这 就 建议 相应 


N 
dpn(0) = ND (di(y;) — p(x;,0 )) (8. 26) 
1 一 1 


它 是 样本 有 关 频 率 向 量 N 2,d 与 预测 频率 向 量 六 -> 让 之 差 。 利 用 式 (8. 5)， 
就 得 出 安德鲁 斯 (Andrews，1988a, 1988b) 的 卡 方 拟 合 优 度 检 验 统计 量 [chi-square 
goodness-of fit (CGF) test statistic |. 


CGF=N dp (0 )'V-!'dpn (0) (8. 27) 


其 中 ,VY 的 表达 式 是 相当 复杂 的 。 利 用 辅助 回归 (8. 5) 以 及 向 ;二 di; 一 Pi, 容易 计算 
CGF 检验 统计 量 。 这 个 辅助 回归 是 适宜 的 ,因为 完全 参数 模型 得 到 了 检验 ,从 而 4 
是 MLE。 

在 f(y|x,0) 被 正确 设 定 的 假设 下 ,所 得 到 的 检验 统计 量 渐 近 服从 XX (J 一 1)， 
由 于 概率 之 和 为 1 是 一 个 约束 ,所 以 需要 去 掉 一 个 分 类 。 进 一 步 地 ,在 一 些 特殊 情 
况 下 ,可 能 要 去 掉 一 些 分 类 , 辟 如 在 式 (8. 23) 后 面 曾 讨论 的 多 项 式 例 子 。 除 报告 已 
计算 的 检验 统计 量 之 外 ,报告 N !'2d; 与 N 之 让 的 分 量 是 有 价值 的 。 

安德鲁 斯 (Andrews，1988a，1988b) 已 提供 有 关 的 源 近 理论 ,他 给 出 比较 简 
单 的 表述 和 几 个 应 用 。 为 了 简单 起 见 ,我 们 依据 y 的 范围 来 决定 所 述 胞 腔 , 不 过 
这 种 划分 既 可 依据 y 又 可 依据 x 而 定 。 应 该 对 胞 腔 进 行 选 取 , 以 便 不 存在 仅 有 
几 个 观测 值 的 胞 腔 。 对 于 更 详细 的 内 容 和 这 种 检验 的 历史 ,参见 安德鲁 斯 的 这 
此 论文 。 

在 连续 随机 变量 y 为 iid 的 情况 下 , 比 SCGF 检验 更 为 一 般 的 检验 是 柯 尔 莫 可 
洛 夫 检 验 (Kolmogorov test) ; 此 检验 使 用 y 的 整个 分 布 ,而 不 是 由 y 胞 膛 所 形成 的 
分 布 。 安 德 鲁 斯 (Andrews，1997) 曾 经 阐述 柯 尔 莫 哥 洛 夫 检 验 的 回归 形式 ,但 是 ， 
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与 卡 方 拟 合 优 度 检验 相 比 , 它 却 显得 更 加 难以 实施 。 
8.2.7 巡 度 商 别 约 束 检 验 


对 过 度 识别 假设 进行 检验 (参见 6. 3. 8 节 ) 是 m 检验 的 一 个 例子 。 

运用 第 6 章 的 记号 ,广义 矩 方法 估计 量 是 建立 在 ELhCw;,06)]= 二 0 假设 的 基础 
上 。 乔 模型 是 过 度 识别 的 , 则 这 些 矩 约束 中 仅 有 cz 个 用 于 估计 ,从 而 得 出 (> 一 g) 个 
线性 相关 正 区 性 条 件 , 其 中 ,一 dimLh(.)], 这 能 用 于 构建 m 检验 。 于 是 ,我 们 使 
用 式 (8. 4) 中 的 M, 其 中 ,mv 一 NihCw,b)。 正 如 6. 3. 9 节 表 明 的 , 若 和 是 最 
优 广 义 矩 方法 估计 量 , 则 mv(6)' Smpw(6 ) 渐 近 服 从 (r 一 g) 分 布 ,其 中 , $n == 
N12Y hhi。 更 直观 的 线性 工具 变量 例子 将 由 8. 4. 4 节 给 出 。 


8.2.8 条 件 入 检验 的 势 与 一 致 性 


由 于 不 存在 显 性 可 供 选 择 的 假设 ,所 以 m 检验 不 同 于 第 7 章 的 检验 。 

有 几 位 作者 已 经 给 出 一 些 例子 ,可 以 证 明 ,例子 中 的 IM 检验 等 价 于 传统 的 零 
假设 对 备 择 假 设 的 LM 检验 。 切 舍 (Chesher，1984) 把 IM 检验 解释 成 为 对 随机 参 
数 异 质 性 的 检验 。 对 于 正 态 性 条 件 下 的 线性 模型 来 说 , 霍 尔 (Hallj，1987) 已 经 证 
明 ,IM 检验 的 子 分 类 对 应 于 异 方差 性 、 对称 性 以 及 峰 度 的 LM 检验 。 卡 梅 伦 和 特 
里 维 岂 CCameron and Trivedi，1998) 已 给 出 线性 指数 族 结 果 的 某 些 其 他 例子 和 人 参 
考 文 献 。 

时 一般 地 讲 ,m 检验 能 在 下 述 条 件 矩 框架 下 加 以 解释 。 以 线性 回归 模型 中 对 添 
加 变量 进行 检验 来 开始 。 假 定 想 要 检验 模型 y= 二 xi Bi 十 XzB; 十 w 中 是 否 有 B; 一 0。 
这 是 Ho: ELy 一 xi | 台 王 0 对 五.: ELy 一 Xi 人 11xXj 二 Xz Bi 的 检验 。 在 y 一 XiB1 对 
xz 的 回归 中 ,在 五 。 下 并 且 假 定 对 于 不 同 i 具有 独立 性 , 互 .: B; 一 0 的 最 强 有 力 的 
检验 是 建立 在 有 效 GLS 估计 量 


~ XXX (y 一 Xi) 
1X2; 2i (Yi i 
fg 一 | > 2 | 2 J 
i=] 9 i 二 1] ; 


的 基础 上 ,其 中 ,oi 二 VLy; lx, 该 检验 等 价 于 仅仅 建立 在 第 二 个 和 式 基 础 上 的 检 
验 , 尼 是 


E[ 2 ] -0 (8. 28) 


的 mm 检验。 一 旦 对 过 程 加 以 颠倒 ,就 把 建立 在 式 (8. 28) 基 础 上 的 m 检验 解释 成 为 
Ho: ELy 一 x1B11Xxj 一 0 对 及.: ELy 一 XiBi11xj] 二 x2B2 的 CM 检验 。 同 理 , 把 建立 
在 ELxz(y 一 x16B1)j 二 0 基础 上 的 m 检 验 解释 成 为 H。: EL[y 一 x1B11xj 二 0 对 H,: 
ELy 一 x1B1|xj 二 3XzBz ,其 中 ,在 日 下 ,有 0, 一 VLy|xj]。 
更 一 般 地 讲 , 对 于 某 个 纯 量 消 数 xrC，) ,假定 以 条 件 矩 约束 
E[r(y;,x;,0) |x;]=0 (8. 29) 


开始 。 于 是 ,建立 在 无 条 件 矩 约束 


4 设 定 检验 与 模型 选择 


Elg(x;)r(y;,x;,0) |=0 (8. 30) 
基础 上 的 m 检验 ,可 能 被 解释 成 具有 下 述 零 假设 与 备 择 假 设 的 CM 检验 : 
Ho: Elr(y;,x;,0) |x; | 一 0 (8. 31 ) 


H,: Elr(y.,x,0) |x; |=o:g(xX) 人 


其 中 ,在 五。 下 ,有 os 一 VLzr(y， ,xX; ,0) |x; | 。 

这 个 方法 给 出 了 在 哪个 方向 上 CM 检验 具有 势 的 指责 。 尽 管 式 (8. 30) 表 明 ， 
势 通 常 位 于 gCx) 的 方向 上 ,由 式 (8. 31) 知 ,更 准确 的 表述 是 ,用 r(y,x,0) 方 差 乘 以 
gx) 的 方向 。 这 个 差异 是 重要 的 ,因为 在 许多 横 截 面 应 用 中 , 对 不 同 观测 值 而 言 ， 
这 个 方差 不 为 常 值 。 对 于 更 详细 的 内 容 及 参考 文献 , 可 参见 卡 梅 伦 和 特 里 维 迪 
(Cameron and Trivedi，1998) ,他 们 称 这 为 基于 回归 的 CM 检验 。 尽 管 此 方法 表 
现 出 更 繁琐 的 代数 运算 ,但 可 把 它 推 广 到 加 量 r"(*) 上 。 

m 检验 是 对 有 限 多 个 矩 约 东 所 进行 的 检验 。 因 此 ,对 基本 驼 件 的 答 巡 件 进行 
数据 生成 过 程 是 可 行 的 ,例如 , 式 (8. 29) 中 的 条 件 矩 约束 不 正确 ,但 矩 条 件 却 得 到 
满足 。 于 是 ,CM 检验 是 非 一 致 的 , 当 N 一 co 时 ,以 概率 1 不 能 拒绝 。 为 了 对 非 线 
性 回归 模型 [其 中 ,>(y,x,9) 一 y 一 太 x,9)] 中 的 函数 形式 检验 , 比 伦 斯 (Bierens， 
1990) 提 出 对 式 (8. 30) 中 的 g(x) 进行 设 定 的 方法 ,以 此 确保 一 致 条 件 矩 检验 
(consistent conditional moment test) 。 但 是 ,如 果 无 法 保证 检验 一 致 性 ,就 确保 它 
将 对 特殊 的 备 择 假设 具有 高 的 势 。 


8.2.9 m 检验 例 子 


为 了 阐明 各 种 m 检验 ,考察 5. 2 节 引 入 的 泊 松 回归 模型 ,其 泊 松 密度 为 
f(y)=e 7171, 且 HU 一 exp(XG )。 
对 于 m(。) 的 各 种 不 同 选取 ,我 们 想 要 检验 : 


Ho : ELm(y,x,0G) |=0 


实际 上 ,这 个 检验 将 在 数据 生成 过 程 被 设 定 为 泊 松 密度 的 假设 下 进行 。 

辅助 回归 

由 于 通过 极 大 似 然 法 估计 ,所 以 能 使 用 m 检验 统计 量 M ,将 它 计算 成 六 倍 的 
源 于 辅助 回归 (8. 5) 非 中 心 化 R* ,其 中 : 


1 一 InGCyi Xi， B) 6 (Cy;— exp(x’ GD xy 十 ww; (8. 32) 


因为 $=|3ln f(y)/9B13 二 (y 一 exp(x B))x, 而 B 是 极 大 似 然 估计 值 。 在 Ho。 下， 


该 检验 服从 XX (dim《m)) 分 布 。 
一 种 可 供 选 择 的 方式 是 源 于 辅助 回归 ，. 


1=m(y,x,z, 男人 十 zx (8. 33) 


的 统计 量 M” 。 如 果 m(*) 使 得 ELam/aGJ] 一 0, 那 么 这 个 检验 渐 近 地 等 价 于 LM ， 
否则 它 就 不 服从 卡 方 分 布 。 


微观 经 济 计量 学 


| 


和 矩 检 验 
对 条 件 均值 函数 的 正确 设 定 , 即 E[y 一 exp(x'B)|xj 二 0, 这 可 通过 : 


El(y—exp(x 8))z|=0 


的 mm 检验 来 加 以 确定 ,其 中 ,z 可 以 是 x 的 函数 。 对 泊 松 模型 以 及 其 他 LEF 模型 
来 说 ,z 不 能 等 于 x, 因为 Bw 的 一 阶 条 件 利用 了 约束 总 ;(y; 一 exp(x/B))x’ 二 0, 从 而 
导致 如 条 z= 二 =x, 那么 M 一 0。 相 反 ,z 能 包括 回归 元 的 平方 项 与 交叉 项 。 

同 理 , 对 方差 正确 设 定 进行 检验 ,因为 泊 松 分 布 蕴 含 条 件 均值 方差 等 式 。 由 于 
VLy|lxj—ELylxj 一 0 且 ELy|xj] 二 exp(x BB), 建 议 ， 


E[{(y—exp(x BG)):—exp(x 8)}x]=0 
的 m 检 验 。 不 过 ,由 于 Ey|xXj 一 exp(x 8B), 所 以 一 种 变形 就 是 检验 : 
E[{(y—exp(x 8)):— y}x|=0 


那么 ,m(B) 一 {(y 一 exp(xB))? 一 y)x 具有 EL93m/36B]==0 的 性 质 , 因 而 式 (8. 7) 成 
立 , 并 且 可 供 选 择 的 回归 (8. 33) 产 生 了 渐 近 等 价 于 回归 (8. 23) 的 检验 。 

参数 模型 的 标准 设 定 检验 是 IM 检验 。 对 于 泊 松 密度 ,已 在 式 (8. 19) 定 义 的 D 
变 成 DC(y,x,BGB) 一 ((y 一 exp(CXG)) 一 y》)xx ,从 而 我 们 检验 : 


EL((y 一 exp(CxX GG)):— vy}Vechlxx |]=0 


很 明显 ,就 沪 松 例子 而 言 ,IM 检验 是 对 由 泊 松 模型 所 药 售 的 一 阶 与 二 阶 和 矩 条 件 进 
行 检验 ,更 一 般 地 讲 , 对 LEF 模型 来 说 , 其 结果 仍 成 立 。 由 于 此 处 ELamvyaGJ=0， 
改 检 验 统计 量 M” 渐 近 地 等 价 于 M ” 。 

沪 松 假设 还 能 利用 卡 方 拟 合 优 度 来 进行 检验 。 例 如 ,由 于 在 后 面 模拟 例子 中 
的 少数 几 个 计数 大 于 三 个 的 胞 腔 对 应 于 y 二 0,1,2,3 或 更 多 一 些 , 在 实施 检验 时 ， 
含有 y 二 3 或 更 多 一 些 的 胞 腔 将 被 去 掉 , 因 为 概率 和 为 1。 因此 ,对 于 7 一 0,…,2 计算 
标示 变量 , 当 yi 一) HT ,di 一 ,否则 d;; 一 0, 从 而 计算 出 预测 概率 Pi 一 e «ig?/ | ， 
其 中 jj; 二 exp(xiB)。 于 是 ,对 


El (d—p) |=0 
进行 检验 ,其 中 d;=| dio ,Ci ,Ciz ,而 由 辅助 回归 (8. 33) 知 ,Pp; 二 | pio » Pil ; pi2 jj ;这 
里 ,mh 一 由 一 P,。 
模拟 结果 


数据 由 泊 松 模型 生成 ,其 均值 El y| xj 一 exp(p 十 Bx2) ,其 中 ,Xo~N(0,1)H 
(Bi, 惨 ) 一 (0,1)。 对 样本 量 为 200 的 样本 来 说 ,y 对 xX 的 泊 松 ML 回归 ,得 出 : 


Ef[y|zr]=exp(—1.165++ 1. 124x;) 
(0. 089) 《0. 069) 


其 中 ,有 关 的 标准 误差 已 列 在 小 括号 中 。 
各 种 不 同 的 m 检验 结果 已 由 表 8. 1 给 出 。 


4 设 定 检验 与 模型 选择 


表 8.1 泊 松 回归 例子 的 设 定 m 检验 * 


检验 类 型 Ho 其 中 pi 一 exp(XG) Mr dof 力 值 Me™" 
1. 正确 均值 E[(y—) x j=0 3. 27 1 0. 07 0. 44 
2. 方差 二 均值 EL[ {Cy 一 pj)? 一 jy}xj 二 0 2. 43 2 0. 30 1. 89 
3. 方差 = 均值 EL{Cy 一 J: 一 y}xj] 二 0 2. 43 2 0. 30 2. 41 
4， 信 息 和 矩阵 EF(Cy 一 0 一 y})VechLxx ]] 一 0 2. 95 3 0. 40 2. 73 
5. 卡 方 GOF ”ELd 一 pj 一 0 2. 50 3 0. 48 0. 75 


a y 的 数据 生成 过 程 是 泊 松 分 布 ,其 均值 参数 为 exp(0 十 zz), 样 本 量 N= 二 200。m 检验 统 计量 M* 服 从 卡 
方 分 布 ,其 自由 度 已 在 dof 列 中 给 出 ,pp 值 在 p 值 列 中 给 出 。 一 种 可 供 选 择 的 检验 统计 量 M* 仅 对 检验 3 和 
检验 4 是 有 效 的 。 


考察 IM 检验 , 举 一 个 利用 式 (8. 32) 计算 M 的 例子 。 由 于 x 王 [1,z*] , 且 
Vech[xx ] 二 [1, xz, Xx], 辅助 回归 是 1 对 {Cy 一 ?一 y}、((y 一 2) ?一 y}) zz、 
{(y 一 六 2 一 y}z(Cy 一 站 (yy 一 上 za 的 个 归 , 并 得 出 非 中 心 化 KR 王 0.014 73 和 
N= 二 200, 这 导致 M* 一 2.95。 相 同 的 M* 值 可 直接 通过 非 中 心 化 的 解释 平方 和 
2. 95 直接 获得 ,同时 可 间接 地 作为 N 减 去 源 自 这 个 回归 的 残 差 平 方 和 197. 05 而 
得 到 。 检 验 统计 量 服从 X (3) 分 布 ,并 且 p 二 0.40, 因 此 , 零 假 设 在 显著 性 水 平 0. 05 
上 没有 被 拒绝 。 

对 卡 方 拟 合 优 度 检验 来 说 ,实际 频率 分 别 是 0. 435.0. 255 和 0. 110; 而 相应 的 
预测 频率 是 0. 429、0. 241 和 0. 124。 这 可 利用 式 (8. 23) 得 出 ,PCGF 王 0. 47, 但 该 
统计 量 已 不 服从 卡 方 分 布 ,因为 它 没有 控制 估计 6 中 的 误差 。 式 (8. 27) 中 的 正确 
统计 量 卡 方 拟 合 优 度 (CGF) 的 辅助 回归 会 导致 M* 王 2. 50, 它 服从 卡 方 分 布 。 

在 此 模拟 研究 中 , 当 M* 的 pb 值 大 于 0.05, 全 部 5 个 矩 条 件 在 水 平 0.05 上 都 没 
有 被 拒绝 。 如 同人 们 所 料 , 由 于 这 个 模拟 例子 的 数据 是 由 设 定 密度 生成 的 ,所 以 检 
验 在 水 平 0.05 上 仅 有 5% 的 时 间 应 该 被 拒绝 。 一 种 可 供 选 择 的 统计 量 M” 只 有 对 
检验 3 与 检验 4 才 会 有 效 ,那样 才 有 EL93m/3B8j] 二 0; 否 则 , 它 只 提供 了 M 下 看 。 


8. 3 ” 聚 斯 过 检验 


建立 在 两 个 不 同 估计 量 比 较 基础 上 的 检验 称 为 豪 斯 曼 检 验 , 以 罕 斯 曼 (Haus- 
man, 1978) 命 名 ,也 称 为 吴 一 豪 斯 曼 检 验 或 杜 宾 一 吴 一 察 斯 曼 检 验 。 以 有 二 (人 Wu， 
1973) 和 杜 宾 (Durbin，1954) 命 名 ,是 因为 他 们 都 曾 提 出 过 类 似 检验 。 


8.3.1 柳 斯 婉 检验 


考察 单方 程 中 对 回归 元 内 生性 的 检验 。 两 种 可 供 选 择 的 估计 量 是 OLS 估计 
量 与 2SLS 估计 量 , 其 中 ,2SLS 估计 量 为 了 控制 回归 元 的 可 能 内 生性 而 使 用 工具 。 
如 果 存 在 内 生性 ,那么 OLS 是 非 一 致 的 ,因而 这 两 种 估计 量 将 具有 不 同 的 概率 极 
限 。 这 就 提出 了 ,对 内 生性 进行 检验 可 通过 对 OLS 估计 量 与 2SLS 估计 量 之 差 来 
进行 检验 ,更 详细 的 讨论 可 参见 8. 4. 3 节 。 


微观 经 济 计量 学 


hh hh 


更 一 般 地 ,考察 两 个 估计 量 6 与 6。 下 面 考察 检验 : 
H,: plim(0 一 6 ) 一 0 (8. 34) 
H,: plim(8 一 6 )0 / 
假定 两 个 根 号 N 一 致 估计 量 之 差 在 Ho 下 还 是 根 号 N 一 致 的 ,其 均值 为 0 且 服 从 
极限 正 态 分 布 , 因 此 : 


VNGG —6) SNIO,Va) 
其 中 ,Va 表示 极限 分 布 中 的 方差 矩阵 。 于 是 , 豪 斯 曼 检 验 统 计量 为 : 
HH 一 (一 和)CNTIVH)ICO —6) (8. 35) 


在 Ho 下 , 渐 近 服从 X (gq) 分 布 。 在 水 平 a 上 , 当 H>X (9) 时 ,就 拒绝 有 。 

在 一 些 应 用 中 ,例如 对 内 生性 的 检验 ,V[6 一 06 1] 是 小 于 满 秩 的 形式 。 于 是 ,把 
广义 逆 用 于 式 (8. 35) ,而 且 卡 方 检验 具有 等 于 VL9 一 0 ] 秩 的 自由 度 。 

肖 斯 曼 检 验 能 用 于 参数 的 子 集 。 例 如 ,关注 内 容 只 是 可 能 内 生 回 归 元 的 系数 ， 
以 及 从 OLS 到 2SLS 变动 时 它 是 否 变 化 。 那 么 , 仅 有 0 的 一 个 分 量 被 使 用 , 故 该 检 
验 统计 量 服 从 X (1) 分 布 。 正 如 在 其 他 背景 下 一 样 ,建立 在 参数 子 集 上 的 这 一 检验 
所 得 出 的 结论 ,不 同 于 建立 在 全 部 参数 上 的 检验 所 得 出 的 结论 。 


8. 3.2 区 斯 坚 检 肉 计 算 


从 原则 上 讲 ,计算 豪 斯 曼 检 验 很 容易 ,但 在 实际 应 用 时 得 到 它 很 困难 ,由 于 需 
要 得 到 Va 的 一 致 估计 值 , 即 VN(6 一 6 ) 的 极限 方差 矩阵 。 通 常 有 : 


NiVu=V[6—8 =V[8 十 VTI6 一 2Cov10 ,6] (8.36) 


前 两 个 量 均 容 易 由 通常 输出 结果 计算 ,但 第 三 个 量 则 不 能 。 

在 零 假 设 下 计算 完全 有 效 估计 量 

尽管 聚 斯 曼 检验 的 基本 零 假 设 与 备 择 假 设 如 同 式 (8. 34) 一 样 ,但 在 应 用 时 要 
记 住 ,通常 存在 特定 的 零 假 设 模型 及 备 择 假设 。 例 如 ,在 比较 OLS 估计 量 与 2SLS 
估计 量 时 , 零 假设 模型 则 允许 一 些 回 归 元 为 内 生 的 。 

若 8 是 零 假设 模型 的 有 效 估计 量 , 则 Cov[6 ,6 ] 二 VL60 ]。 其 证 明 参 见习 题 
8. 3。 这 蕴含 VL6 一 6 ]= 二 V[6 ] 一 VL6 ], 因 此 : 

H=(0 —0) (V[6 |—Y[8 1)- (0 一 0 ) (8. 37) 

该 统计 量 因 仅 需要 参数 8 与 8 估计 渐 近 方差 矩阵 ,所 以 具有 相当 多 的 优点 。 使 用 
允许 保留 参数 方差 抢 阵 估计 值 并 利用 和 拖 阵 命令 的 计算 程序 ,这 样 做 是 有 益 的 。 

例如 ,如 果 假 设 误差 是 同方 差 的 ,那么 这 种 简化 能 应 用 到 线性 回归 模型 应 用 中 
的 内 生性 检验 上 。 于 是 ,8 在 没有 内 生性 的 零 假设 下 成 为 完全 有 效 的 OLS 估计 量 ， 
而 6 是 2SLS 估计 量 。 可 是 ,需要 小 心 谨慎 ,以 便 确 保 方差 矩阵 的 一 致 估计 值 使 得 
V[9 ] 一 VL6 ] 是 正定 的 [参见 鲁 德 (Rudd，1984)]。 在 OLS 与 2SLS 的 比较 中 , 方 
差 矩 阵 估 计量 VL6 ] 及 V[6 ] 应 使 用 误差 方差 2 的 相同 估计 值 。 


4 设 定 检验 与 模型 选择 


尤其 是 , 当 9 是 纯 量 的 或 对 参数 向 量 的 唯一 一 个 分 量 进行 检验 时 , 豪 斯 曼 检 验 
(8. 37) 的 形式 可 通过 手工 方式 很 容易 地 计算 。 于 是 : 


H =(0—0)?/(s:— $2) 


服从 X (1) 分 布 ,其 中 ,3 与 了 都 表示 6 与 5 的 报告 标准 误差 。 

辅助 回归 

在 一 些 重要 情况 下 , 豪 斯 曼 检 验 更 简单 地 计算 成 为 在 增 广 OLS 回归 中 对 回归 
元 子 集 的 显著 性 的 标准 检验 ,推导 是 在 6 为 完全 有 效 的 假设 下 进行 的 。 

一 些 例 子 将 在 8. 4. 3 节 和 21. 4. 3 节 给 出 。 

稳健 豪 斯 曼 检 验 

尝 斯 曼 检 验 的 较 简 单 形 式 (8. 37) 以 及 标准 的 辅助 回归 ,都 需要 8 是 完全 有 效 
的 强 分 布 假设 。 与 在 相对 弱 分 布 假设 下 实施 的 稳健 推断 方法 相 比 ,这 是 其 对 立 
情况 。 

从 原则 上 讲 , 对 CovL6 ,6 ] 可 直接 估计 ,从 而 可 估计 出 Va。 假定 6 与 6 是 求 
解 2,h (9 ) 一 0 与 站 了 ;hz; (0 ) 二 0 的 m 佑 计量。 定义 ==[6,61]。 于 是 , V[6 ]= 
G。 So《(G。) ,其 中 ;Go 与 So 已 由 6.6 节 定义 ,其 简化 形式 为 G1; 二 0。 人 们 期 望 ， 
V[0 一 9 ] 一 RV[6 ]R' ,其 中 ,R 二 [1, 一 I,]。 实 施 起 来 需要 应 用 于 特定 情况 的 额 
外 编程 。 

一 种 较 简 单 的 方法 是 自助 法 (参见 11. 6. 3 节 ) ,尽管 在 一 些 应 用 中 需要 小 心 谨 
慎 , 以 便 确保 在 卡 方 检验 时 有 正确 的 自由 度 。 

另 一 种 非 完 全 有 效 8 的 方法 是 使 用 辅助 回归 ,该 辅助 回归 在 有 效 情 况 下 是 适 
宜 的 ,但 为 了 实施 回归 元 子 集 检验 而 利用 稳健 标准 误差 。 这 种 稳健 检验 可 直接 实 
施 , 并 在 对 关注 的 销 误 设 定 进行 检验 时 具有 势 , 尽 管 它 可 能 不 一 定 是 等 价 于 使 用 由 
式 (8. 35) 给 出 了 的 更 一 般 形 式 的 罕 斯 曼 检 验 。21. 4. 3 节 将 给 出 一 个 例子 。 

最 后 ,计算 出 一 些 界 ,这 并 不 需要 计算 Cov[8 ,8 ]。 对 纯 量 随机 变量 来 说 ， 
Cov[Lzx,yj] 志 ss,。 就 纯 量 情况 而 言 ,这 提出 H 的 上 界 (0 一 9)?/(5 十 5? 一 253 ), 其 
中 , 庆 一 V[Lb ] 与 5 二 VL0]。 在 9 与 9 是 正 相关 的 假设 下 ,H 的 下 界 是 N(6 一 09)/ 
(让 十 入 )。 不 过 ,实际 应 用 中 ,这些 界 是 相当 广泛 的 。 


8. 3.3 桶 斯 曼 检 验 的 攻 


之 斯 曼 检 验 是 非常 一 般 的 方法 ,该 方法 没有 显 性 地 表述 一 种 可 供 选 择 的 假设 ， 
因此 ,不 需要 对 特殊 可 供 选 择 假设 具有 高 的 势 。 

例如 ,考察 完全 参数 模型 对 排除 性 约束 的 检验 。 注 意 到 , 零 假 设 Ho: 0 一 0， 
其 中 ,6 被 分 割 成 (9; ,8;) 。 一 个 明显 设 定 检验 是 0 一 6; 之 差 的 豪 斯 曼 检 验 , 其 中 ， 
(01 ,0. ) 表 示 无 约束 MLE ,而 (6 ,0) 表 示 8 的 约束 MLE。 霍 利 (Holly，1982) 已 经 
证 明 ,这 个 察 斯 曼 检 验 与 Ho: Ti Zi20; 二 0 的 经 典 检验 ( 沃 尔 德 、.LR 或 LM) 是 一 
样 的 ,其 中 ,Zz 二 EL9*L (01,0;:)/90;90; ,而 不 是 五。 0; 一 0 的 情况 。 如 果 五? 是 列 
满 秩 的 且 dim(01) 宇 dim(9;) ,那么 这 两 种 检验 是 一 样 的 ,进而 i! 五:9 二 0 当 且 仅 
当 6; 二 0。 否 则 ,它们 是 不 同 的 。 很 明显 , 当 信 息 和 矩阵 是 分 块 对 角 时 , 豪 斯 曼 检 验 将 
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不 具有 对 Ho 的 势 ,进而 五 :二 0。 堆 利 (Holly，1987) 将 这 种 分 析 推 广 到 非 线性 
假设 。 


8.4 ”对 条 些 普遍 错误 设 定 的 检验 


本 廊 阐 述 对 某 些 普 遍 模 型 错误 设 定 的 检验 。 关 注 内 容 在 于 能 利用 辅助 回归 进 
行 计算 的 检验 统计 量 , 这 就 可 利用 最 少 的 假设 实施 对 异 方差 误差 稳健 的 推断 。 


8. 4.1 对 省 有 略 变量 检验 


际 特殊 情况 之 外 ,省 略 变量 通常 会 导致 非 一 致 的 参数 估计 , 例如 ,线性 模型 中 
省 咯 变量 不 与 其 他 回归 元 相关 。 因 此 ,重要 的 是 检验 潜在 省 略 变量 。 

最 经 常 使 用 的 是 沃 尔 德 检 验 , 与 估计 含有 排除 省 略 变 量 的 约束 模型 相 比 ,估计 
含有 省 上 略 变量 的 模型 通常 不 再 困难 。 进 一 步 地 ,这 个 检验 可 使 用 稳健 三 明治 标准 
误差 ,只 有 当 稳 健 二 明治 误差 是 必需 的 时 ,估计 量 仍 是 一 致 性 的 ,这 样 做 才 真 正 才 
有 意义 。 

把 关注 限制 在 ML 估计 ,一 种 可 供 选 择 的 方法 是 ,估计 具有 潜在 不 相关 的 回归 
元 模型 与 没有 潜在 不 相关 回归 元 的 模型 ,然后 实施 LR 检验 。 

在 某 些 背景 下 ,很 容易 计算 LM 检验 的 稳健 形式 。 例如, 考察 均值 为 
exp(CXI 981 十 xzG:) 的 泊 松 模型 的 Ho.: GB:=0 的 检验 。 此 LM 检验 统计 量 是 建立 在 
得 分 统计 量 ;xi; 的 基础 上 的 ,其 中 ,一 yi 一 exp(X1i;B1) (参见 7. 3.2 太 )。 现 在 ， 
关于 N ">i;xiu; 方差 的 异 方 差 性 稳健 估计 值 是 N12>w?xixi ,其 中 ,wi 二 yy 一 
El y; [x; ,可 以 证 明 ， 


LM'— [Da lf Saxx [Sx a, | 
i 一 | i 一 ] :一 1 


是 稳健 LM 检验 统计 量 ,该 统计 量 不 需要 在 Ho 下 的 VLui lj=expCxuGi) 泊 松 约 
束 。 这 能 计算 为 源 于 1 对 xi 及 xzia; 回归 的 未 中 心 化 R? 的 N 倍 。 更 一 般 地 讲 ， 
对 线性 指数 族 中 假定 的 模型 来 说 ,这 类 稳健 LM 检验 是 可 行 的 ,因为 这 种 模型 中 的 
得 分 统计 量 再 次 是 残 差 天 的 加 权 平 均 [ 参见 伍德 里 奇 (Wooldridge，1991) ]。 这 一 
类 包括 OLS, 而 当 通 过 2SLS 或 NLS 进行 估计 时 ,可 适当 修改 ,参见 伍德 里 奇 
(Wooldridge，2002 ) 。 


8. 4. 2 蜡 万 卷 性 检验 


在 人 存在 异 方差 性 时 ,由 最 小 二 乘 或 工具 变量 方法 估计 的 条 件 均值 线性 或 非 线 
性 回归 模型 中 的 参数 佑 计 值 ,保持 它们 的 一 致 性 。 唯 一 需要 校正 的 是 这 些 估 计 值 
的 标准 误差 。 这 并 不 需要 对 异 方差 性 进行 建 模 , 因 为 在 最 少 分 布 的 假设 下 , 异 方差 
稳健 标准 误差 可 利用 怀特 (White，1982) 的 结果 加 以 计算 。 因 此 ,对 异 方 差 性 很 少 
需要 进行 检验 ,除非 们 计量 的 有 效 性 是 重点 关注 的 内 容 。 不 过 ,我 们 对 异 方差 性 检 
验 的 一 些 结果 加 以 归纳 总 结 。 
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我 们 以 线性 回归 模型 y 王 x 6B 十 zx 的 LS 估计 开始 。 假 定 蜡 方差 性 可 由 
Viu|x|] 二 g(aj 十 z a ) 进 行 建 模 ,其 中 ,z 通常 表示 x 的 子 集 ,而 g(*) 常 常 表示 指数 
图 数 。 文 献 基 注 于 利用 LM 方法 对 日 ,: oa 一 0 进行 的 检验 ,因为 与 沃 尔 德 及 LR 
检验 不 同 , 这 仅仅 要 求 8 的 OLS 估计 。 布 鲁 什 和 帕 甘 (Breusch and Pagan，1979) 
的 标准 LM 检验 紧密 依赖 于 正 态 分 布 误差 的 假设 ,因为 它 使 用 在 瓦 , 下 的 
EL |x 二 304 的 约束 。 凯 恩 克 (Koenker，1981) 曾 经 提出 LM 检验 的 更 稳健 形 
式 , 源 于 zi 对 1 与 z 回归 的 NR? ,其 中 ,说 表示 OLS 残 差 。 该 检验 需要 较 弱 的 
假设 一 一 ELu” jxj 是 常数 。 像 布 鲁 什 一 帕 甘 检验 一 样 , 它 对 陋 数 g(…) 的 选择 而 言 
是 不 变 的 。 异 方差 性 的 怀特 (White，1980a) 检 验 等 价 于 这 个 LM 检验 ,满足 z 一 
Vech[ xx ]。 该 检验 能 被 进一步 推广 到 令 E[u' |x]j 随 x 而 变化 的 情况 ,尽管 常 值 对 
检验 的 假设 而 言 是 有 道理 的 ,因为 Ho 已 经 设 定 ,ElLz |xj 是 一 个 常 值 。 

对 条 件 均值 的 非 线 性 模型 来 说 ,在 性 质 上 可 完成 类 似 结果 ,这 里 的 非 线 性 模型 
假定 对 于 错误 设 定 异 方差 性 的 一 种 特殊 形式 进行 检验 。 例 如 , 泊 松 回归 模型 设 
VLy|xj 二 exp(x B8)。 更 一 般 地 讲 , 对 线性 指数 族 模型 而 言 ,尽管 错误 设 定 的 异 方 
差 性 及 性 奈 类 似 于 此 处 应 用 的 结果 ,但 准 MLE 是 一 致 的 。 于 是 ,倘若 可 以 使 用 
5. 7.4 节 曾 述 的 稳健 标准 误差 ,即使 关于 异 方差 性 的 模型 被 错误 设 定 , 但 获得 有 效 
推断 是 可 能 的 。 如 果 人 们 还 希望 对 异 方 差 性 的 正确 设 定 进行 检验 ,那么 稳健 LM 
检验 是 可 行 的 [参见 伍德 里 奇 (Wooldridge，1991) ]。 

在 一 些 非 线性 模型 中 , 异 方差 性 能 导致 参数 估计 值 非 一 致 性 更 为 严重 的 后 果 。 
一 个 重要 例子 是 Tobit 模型 (参见 第 16 章 ) ,含有 正 态 同 方差 误差 的 线性 回归 模型 
由 于 删 失 或 截取 而 变 成 非 线 性 的 ,于 是 ,对 异 方 差 性 进行 检验 变 得 更 加 重要 。 对 
Viu|xj 模 型 可 加 以 设 定 , 也 可 实施 沃 尔 德 检验 、LR 检验 或 LM 检验 ,或 使 用 关于 
异 方差 性 的 m 检验 [参见 帕 甘 和 维 拉 (Pagan and Vella，1989) ]。 


8. 4.3 内 生性 察 斯 曼 检 验 


工具 变量 估计 量 应 该 仅 在 需要 它们 时 才 好 使 用 ,因为 倘若 所 有 回归 元 都 是 外 
生 的 , 则 最 小 二 乘法 舍 计 量 就 是 更 有 效 的 ,并 且 由 4. 9 节 知 ,这 种 有 效 性 的 损失 是 
相当 大 的 。 因 此 ,检验 是 否 需 要 工具 变量 方法 是 有 用 的 。 对 回归 元 内 生性 的 检验 
(test for endogeneity of regressor) 是 ,将 工具 变量 估计 与 最 小 二 乘法 估计 进行 对 比 。 
夺回 归 元 是 内 生 的 , 则 在 极限 形式 上 ,这 些 估计 值 将 会 有 所 不 同 ;而 若 回 归 元 是 外 
生 的 ,两 种 佑 计量 将 会 一 样 。 因 此 ,最 小 二 乘法 与 工具 变量 估计 值 之 间 的 差异 能 解 
释 成 内 生性 的 证 据 。 

这 个 例子 提供 了 葬 斯 曼 检 验 的 最 初 动机 。 考 察 线 性 回归 模型 . 


y=xXi /9 十 xz Bz 二 wx (8,. 38) 
其 中 ,xi 表示 潜在 内 生 的 ,x 表示 外 生 的 。 设 8 表示 式 (8. 38) 中 的 OLS 估计 量 ， 


而 表示 式 (8. 38) 中 的 2SLS 估计 量 。 一 旦 假定 同方 差 误 差 , 则 OLS 在 没有 内 生 
性 的 零 假 设 下 是 有 效 的 ,内 生性 的 豪 斯 曼 检 验 , 可 利用 式 (8. 37) 中 定义 的 检验 统计 


量 H 加 以 计算 。 因 为 可 以 证 明 ,V[ B61 一 V[6 不 是 满 秩 的 ,但 需要 广义 逆 , 并 且 
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自由 度 是 dim(B1) 而 不 是 dim(B ) 。 
综 斯 曼 (Hausman，1978) 证 明 ,在 增 广 OLS 回归 ， 


Vy 二 XI ef 十 Xz G2 十 训 字 十 


元 回归 简化 式 中 内 生 回 归 元 x 的 预测 值 。 等 价 地 ,我 们 能 在 以 下 增 广 OLS 回归 
中 检验 7 一 0: 


y 一 XI 十 2x2 Bs 二 TWiy 二 wu 


其 中 ,Yi 表示 源 自 x 对 工具 z 的 多 元 回归 简化 式 的 残 差 。 就 这 些 检验 而 言 ,从 直 
观 上 看 ,如 果 式 (8. 38) 中 的 与 xi 及 xo 不 相关 ,那么 y 王 0。 相 反 ,如 果 x* 与 相 
关 , 那 么 这 将 由 xi 的 其 他 变换 和 壁 如 大 及 六 的 显著 性 进行 处 理 。 

对 横 和 截面 数据 来 说 ,一 种 习惯 做 法 是 假定 异 方差 误差 。 那 么 , 式 (8. 38) 的 OLS 
估计 量 已 是 无 效 的 ,而 且 不 能 使 用 豪 斯 曼 检 验 的 较 简 单 形式 (8. 37) 。 不 过 ,倘若 利 
用 方差 矩阵 的 异 方差 一 致 估计 来 对 Y= 二 0 加 以 检验 , 则 前 面 的 增 广 OLS 回归 还 是 
能 使 用 的 。 实 际 上 ,这 应 该 等 价 于 豪 斯 曼 检 验 , 因 为 由 戴维森 和 才 金 农 (Davidson 


and MacKinnon, 1993, 第 239 页 ) 的 讨论 知道 ,这 些 增 广 回 归 的 3os 等 于 An(B 一 8)， 
其 中 ,An 表示 满 秩 和 矩阵 日 具 有 有 限 概率 极限 ，。 

可 能 有 另外 的 内 生性 豪 斯 曼 检 验 。 假 定 y 二 x16B1 十 xz Bz 十 X3Bs 十 u, 其 中 ,x 
表示 潜在 内 生 的 ,假定 xz 是 内 生 的 ,并 假定 x 是 外 生 的 。 于 是 ,xi 的 内 生性 能 通 
过 把 仅 含 有 xz 工具 的 2SLS 估计 量 与 既 含 有 xi 又 含有 xz 工具 的 2SLS 估计 量 加 
以 比较 。 还 可 将 蚂 斯 曼 检 验 推 广 到 非 线 性 回归 模型 上 ,只 是 要 用 NLS 代替 OLS,， 
并 用 NL2SLS 代替 2SLS。 戴 维 森 和 麦 金 农 (Davidson and MacKinnon，1993) 曾 
阐述 ,一旦 假定 同方 差 误差 , 则 增 广 回归 能 用 于 计算 有 关 豪 斯 曼 检 验 的 情况 。 当 0 
不 是 有 效 估计 量 时 ,包括 计算 VL6 一 8 ] 例 子 , 姆 罗 蒋 (Mroz，1987) 已 经 提供 一 个 
好 的 内 生性 检验 应 用 。 


8.4.4 人 镍 竺 性 的 OIR 检验 


如 果 使 用 工具 变量 佑 计量, 那么 为 使 工具 变量 估计 量 成 为 一 致 的 ,所 用 工具 必 
须 是 外 生 的 。 对 恰好 识别 模型 来 说 ,检验 工具 外 生性 是 不 可 能 的 。 不 过 ,需要 使 用 
先 验 理由 来 判断 工具 有 效 性 。4. 8. 2 节 已 给 出 一 些 例 子 。 但 是 ,就 过 度 识 别 模型 
而 言 , 对 工具 外 生性 进行 检验 是 可 能 的 。 

我 们 以 线性 回归 开始 。 于 是 ,y 二 x 8 十 u, 若 EL[u|zj] 二 0 或 EL[zu] 二 0, 则 工具 z 
是 有 效 的 。Ho: ELzuj 二 0 的 一 个 明显 检验 是 建立 在 N ”二 22; 背离 0 的 基础 上 。 
在 恰好 识别 的 情况 下 ,工具 变量 佑 计量 是 N “2;zai; 一 0 的 解 , 所 以 这 个 检验 没有 
用 。 在 过 度 识别 的 情况 下 ,6. 3. 8 节 曾 阐述 的 过 度 识 别 约束 检 验 是 : 

OIR 一 立 ZS 7 (8. 39) 


其 中 ,6 一 y 一 xG, 8 表示 对 u ZS Zu 求 极 小 值 的 最 优 广义 和 矩 方法 估计 量 , 而 $ 表 
示 关 于 plim N 7 12ix;Z2 是 一 致 的 。 汉 森 (Hansen，1982) 的 OIR 检验 是 将 萨 根 
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(Sargan，1958) 提 出 的 检验 推广 到 线性 工具 变量 上 , 而 且 检 验 统 计量 (8. 39) 经 常 
称 为 院 根 检验 (Sargan test) 。 当 OIR 很 大 时 ,就 拒绝 矩 条 件 , 从 而 工具 变量 估计 量 
是 非 一 致 的 。 对 Ho 拒绝 ,通常 可 以 解释 为 工具 z 是 内 生 的 证 据 , 但 它 也 可 以 是 模 
型 错误 设 定 的 证 据 , 因 此 ,实际 上 y 关 x 4B 十 w。 在 上 述 任何 一 种 情况 下 ,拒绝 均 表 
明 ,工具 变量 估计 量 是 有 问题 的 。 

正如 6. 3. 9 节 正 式 推导 的 ,OIR 在 瑟 , 下 服从 太 (> 一 氏 ) 分 布 ,其 中 ,(r 一 氏 ) 表 
示 过 度 识别 约束 的 个 数 。 为 了 获得 此 结果 的 某 种 直观 理解 ,专门 研究 同方 差 误差 
是 有 用 的 。 于 是 ,$==6:ZZ, 其 中 ,6 二 六 有 /CN 一 K), 所 以 . 

i Pz 

i /CN— RK) 
其 中 ,Pz 二 Z(ZZ) 1Z 。 因 此 ,OIR 是 关于 了 的 二 次 形式 之 比 。 在 再 。 下 ,分 子 具 
有 概率 极限 oz (r 一 开 ) ,而 分 母 具有 plim 经 二 至 。 因 此 ,该 比值 是 以 > 一 并 为 中 心 
的 ,但 这 是 入 (r 一 民 ) 随 机 变量 的 均值 。 

式 (8. 39) 中 的 检验 统计 量 , 如 同 6. 5 市 一 样 ,通过 和 耳 接 定义 wu 一 y 一 g(x, 旭 ) 或 
2 一 r(yX,G) ,可 立刻 扩展 到 非 线性 回归 上 , 而 对 于 线性 方程 组 与 面板 估计 量 , 则 
要 对 适当 定义 (参见 6.9 节 和 6. 10 节 )。 

对 具有 同方 差 误差 的 线性 工具 变量 来 说 ,可 提出 一 种 对 式 (8. 39) 可 供 选 择 的 
OIR 检验 。 玛 格 达 利 诺 斯 (Magdalinos，1988) 曾 经 对 这 些 检验 加 以 比较 。 人 们 还 
能 使 用 过 度 约束 子 集 的 增 量 OIR 检验 。 


8.4.5 RESET 检验 


一 种 普遍 的 函数 形式 错误 设 定 ,可 能 涉及 被 忽略 的 某 些 回归 元 的 非 线 性 。 考 
察 回归 y 二 x 8 十 u 其中, 我们 假定 回归 元 以 线性 方式 进入 , 且 与 误差 下 是 渐 近 不 
相关 的 。 为 了 检验 非 线 性 ,一 种 简单 的 方法 是 引入 外 生变 量 的 权 葡 数 , 比 如 最 普遍 
的 是 ,平方 项 作为 额外 的 独立 回归 元 ,同时 利用 沃 尔 德 检 验 或 下 检验 ,对 这 些 额 外 
变量 的 统计 显著 性 加 以 检验 。 这 要 求 研 究 者 具有 特定 的 理由 考虑 非 线 性 ,很 明显 ， 
该 种 方法 对 分 类 变量 不 起 作用 。 

拉 姆 齐 (Ramsey，1969) 提 出 ,对 回归 省 略 变量 的 检验 ,能 系统 地 表示 为 对 因数 
形式 的 检验 。 此 建议 是 针对 最 初回 归 加 以 拟 合 ,并 生成 作为 拟 合 值 7 二 x 6 的 新 回 
归 元 ,比如 w= 二 [(x 8B)?，(x 6B) ,…,，(x’B)?*]。 然 后 ,估计 模型 y 一 xXB8 十 wy 十 u， 
并 且 对 非 线 性 的 检验 是 p 个 约束 的 沃 尔 德 检验 , Ho: 7 一 0 对 右 ,: 7 和 关 0。 具 体 地 
讲 , 使 用 小 pp 值 ,诸如 2 或 3。 这 个 检验 对 异 方差 性 来 说 是 稳健 的 。 


8.5 区 分 黄 套 模型 


， 当 一 个 模型 是 另 一 个 模型 的 特殊 情况 , 则 称 这 两 个 模型 是 通 套 的 (nested) ; 当 
两 个 模型 中 的 任何 一 个 都 不 能 表述 成 另 一 个 的 特殊 情况 , 则 称 两 个 模型 是 非 舰 套 
的 (nonnested) 。 利 用 参数 约束 的 标准 假设 检验 , 即 把 一 个 模型 简化 成 为 外 一 个 ,对 
嵌 套 模型 进行 区 分 是 可 能 的 。 不 过 ,在 非 椒 套 模 型 的 情况 下 ,和 需要 发 展 一 些 可 供 选 
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择 的 方法 。 

这 部 分 内 容 关 注 似 然 框 架 下 对 非 髋 套 模 型 的 辨别 ,有 关 结 果 已 得 到 很 好 的 研 
究 。8. 5.4 节 将 给 出 非 似 然 情况 的 简要 讨论 。 辨 别 模型 的 贝 叶 斯 方法 ,将 在 13. 8 
节 加 以 曾 述 。 


8. 5.1 信息 准则 


信息 准则 是 含有 自由 度 调 整 的 对 数 似 然 准 则 。 具 有 最 小 信息 准则 的 模型 是 人 
们 所 偏爱 的 。 

一 种 基本 百 观 理解 如 下 , 当 用 极 大 化 对 数 似 然 值 加 以 测量 ,并 以 支持 简单 模型 
的 简约 性 原理 作为 尺度 , 则 模型 拟 合 间 就 存在 矛盾。 模型 拟 合 能 通过 增加 模型 复 
录 性 来 得 以 改进 。 不 过 , 如果 所 得 到 的 拟 合 改进 能 充分 补偿 简约 性 的 损失 ,那么 只 
须 添加 参数 。 注 意 到 ,依照 此 观点 看 ,正在 研究 的 模型 集合 应 该 包括 “真实 数据 生 
成 过 程 ” 就 没有 必要 了 。 各 种 不 同 的 信息 准则 会 随 着 准则 处 罚 模 型 的 复杂 性 程度 
不 同 而 变化 。 

赤 池 (Akaike,， 1973) 最 初 提出 赤 池 信息 准则 (Akaike information criterion) : 

ALL 一 一 2jnL 二 20 (8. 40 ) 


其 中 ,g 表示 人 参数 的 个 数 , 具 有 最 小 AIC 的 模型 是 人 们 所 偏爱 的 。 运 用 信息 准则 这 
一 术语 ,是 因为 雨 官 (Amemiya，1980) 更 简单 前 述 的 基础 理论 可 利用 库 尔 贝 克 … 
利 布 甚 (Kullback-Liebler information criteria, 人 简 记 为 KLIC) 信 息 准 则 对 不 同 模 型 
加 以 区 别 。 

人 们 提出 了 对 AIC 的 相当 多 的 改进 ,所 有 的 一 2lnL 十 g(g, 六 ) 形 式 都 是 关于 
设 定 罚 晒 数 g(*) 大 于 29 的 。 一 种 最 流行 的 变形 是 贝 叶 斯 信息 准则 (Bayesian in- 
formation criteria) : 


BIC 王 一 2jn 世 Cn N)og (8. 41) 


它 是 由 施 瓦 奖 (Schwarz，1978) 提 出 的 。 施 环 次 假定 > 具有 参数 为 8 的 指数 族 密 
度 , 第 7 个 模型 具有 参数 0 ,满足 dimLb |] 二 gj 二 dim[81, 而 且 先 验 的 不 同 模型 是 关 
于 每 个 8; 先 验 的 加 权 和 。 施 瓦 茨 已 经 证 明 , 在 这 些 假设 下 ,对 后 验 概 率 求 极 大 值 
(参见 第 13 草 ), 半 近 地 等 价 于 选取 模型 ,使 其 IinL 一 (ln N)972 最 大 化 。 由 于 这 
等 价 于 求 式 (8. 41) 的 极 小 值 ,所 以 施 瓦 次 方法 称 为 贝 叶 斯 信息 准则 。 建 立 在 类 似 
于 BIC 的 对 KLIC 求 极 小 值 基础 上 的 AIC 精炼 是 一 致 AIC(econsistent AIC ) , 即 
CAIC 一 一 2InL 十 (1 十 ln N)g。 一 些 作 者 通过 对 式 (8. 40) 及 式 (8. 41) 的 右边 除 以 
N, 来 定义 壁 如 AIC 与 BIC 等 的 准则 。 

假如 模型 简约 性 重要 ,BIC 能 更 广泛 地 用 作 模 型 水 平 (model-size) 惩 罚 , 这 是 内 
为 AL 相对 更 小 。 考察 分 别 具 有 参数 td 与 (2 的 两 个 般 套 模型 ,其 中 20) 十 严 。 
那么 ,实施 LR 检验 是 可 能 的 ,并 且 当 2ln 增加 到 Xos (4) 时 ,在 显著 性 水 平 5% 
上 支持 较 大 的 模型 。 当 21n 工 增加 多 于 2h 时 ,AIC 支持 较 大 的 模型 , 当 <7 时 ， 
与 LR 检验 相 比 ,其 模型 水 平 惩罚 较 少 。 特 别 地 ,对 于 有 二 1, 也 就 是 一 个 约束 ,LR 
检验 使 用 5% 临 界 值 3. 84, 而 AIC 则 使 用 更 小 值 2。 当 2lnL 上 增加 到 hln NN 时 ,BIC 
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文 持 较 大 的 模型 ,与 AIC 或 水 平 为 0.05 的 LR 检验 相 比 ,其 惩罚 更 大 一 些 ( 除 非 N 
格外 小 )。 

贝 叶 斯 信息 准则 会 随 着 样本 量 增 加 而 增 大 惩罚 ,而 传统 假设 检验 在 诸如 5% 
的 显 关 性 水 平 上 则 不 会 这 样 。 对 具有 gs 二 gi 十 1 的 符 套 模型 来 说 ,以 较 小 的 BIC 
为 基础 选取 较 大 模型 ,等 价 于 对 N 二 10?、10 以 及 105 利用 双 侧 上 检验 的 临界 值 
Vln NN 进行 检验 ,此 时 它们 分 别 等 于 2. 15 .3. 03 以 及 3. 72。 通 过 对 比 ,具有 水 平 
0. 05 的 传统 假设 检验 使 用 了 未 变化 的 临界 值 1. 96。 更 一 般 地 讲 , 对 服从 X (h) 分 
布 检验 统计 量 而 言 ,BIC 建议 ,利用 hin N 的 临界 值 而 不 是 通常 的 Xo.0s (1)。 

给 定 模 型 简单 性 ,惩罚 似 然 准 则 经 常用 于 选取 “最 佳 模型 >。 不 过 ,即使 存在 ， 
全 少 哪 种 准则 应 该 受到 人 们 的 偏爱 ,这 一 点 并 没有 清晰 答案 。 在 推导 AIC 以 及 有 
关 测 算 时 ,涉及 相当 程度 的 近似 ,并 且 损 失 函 数 而 不 是 对 KLIC 求 极 小 值 ,或 者 在 
BIC 情 次 下 对 后 验 概率 求 极 大 值 或 许 更 合适 。 从 决策 理论 的 观点 来 看 ,从 模型 集 
合 中 选取 模型 ,应 该 依赖 于 模型 的 使 用 意图 ,例如 ,模型 目的 是 归纳 复杂 现实 性 的 
主要 特性 ,或 者 预测 某 些 结 果 ,或 检验 某 个 重要 的 假设 。 在 应 用 研究 中 ,很 难看 出 
对 经 济 计量 模型 使 用 意图 的 明确 阐述 。 


8. 5. 2 ” 非 许 套 模 型 的 Cox 似 然 比 检 验 


考察 在 两 个 参数 模型 之 间 进 行 选 取 的 问题 。 设 模型 F, 具有 密度 f(y|x,90)， 
模型 G, 具有 密度 g(Cy|x,7y)。 
模型 Fy 对 模型 Cy 的 似 然 比 检验 ,建立 在 下 式 基 础 上 : 


LRG ,7) = L047) = Din AE (8. 42) 
当 G, 航 套 在 Fe 之 中 , 则 由 7. 3. 1 节 知 ,2LR(9, 忆 在 零 假 设 二 G, 下 服从 卡 方 分 
布 。 然 而 , 当 模 型 是 非典 套 时 ,该 结果 不 再 成 立 。 

考 殉 斯 (Cox，1961，1962b) 在 i 是 真实 模型 但 模型 是 非 垦 套 的 特殊 情况 下 ， 
通过 在 Fo 是 真实 模型 的 假设 下 应 用 中 心 极限 定理 ,求解 了 这 个 问题 。 

右 不 能 在 解析 形式 上 得 出 ErLln(CFy|x,9)VgCylx,7y))] ,其 中 ,Er 表示 关于 
密度 /yjx,9) 的 期 望 , 则 这 一 方法 在 计算 上 就 很 难 实施 。 进 一 步 地 ,如果 类 似 的 
检验 统计 量 可 借助 于 对 Fe 与 Cy 的 作用 相反 来 获得 ,那么 既 可 能 求 出 模型 F, 被 拒 
绝 而 支持 Gy ,又 可 能 求 出 模型 G, 被 拒绝 而 文 持 Fo。 因 此 ,检验 不 一 定 是 对 模型 
选择 的 检验 ,因为 它 不 一 定 选取 一 个 或 男 一 个 ;反之 ,具体 说 ,会 出 现 没 有 一 个 模型 
通过 设 定 检验 一 个 模型 通过 设 定 检验 ,或 者 两 个 模型 都 通过 设 定 检验 的 情况 。 

在 一 些 情况 下 ,可 获得 考 克 斯 统计 量 的 解析 形式 。 非 骨 套 线性 回归 模型 y= 
XB 十 u 与 y 二 ZY 十 v 具有 同方 差 正 态 分 布 误 差 [ 参 见 佩 萨 兰 (Pesaran,，1974)]。 
对 于 非 髋 套 变换 模型 h(y) 二 x 十 与 g(y) 二 zy 十 v, 其 中 ,hl(y) 与 g(y) 都 是 已 
知 变 换 ,参见 佩 陕 兰 和 修了 萨 兰 (Pesaran and Pesaran，1995) ,他 们 均 使 用 基于 模拟 
方法 。 例 如 ,这 人 允许 对 线性 参数 模型 与 对 数 线 性 参数 模型 加 以 区 分 ,这 里 ,h(.) 为 
恒 等 变换 ,而 g(*) 为 对 数 变 换 。 佩 萨 兰 和 修 萨 兰 (Pesaran and Pesaran，1995) 将 
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该 思想 用 到 第 14 章 阅 述 的 对 logit 模型 与 probit 模型 的 选取 上 。 
8. 5.3 非 钳 套 模 型 会 似 然 比 检验 


伍 (Vuong，1989) 曾 提出 LR 检验 统计 量 的 非常 一 般 的 分 布 理论 , 它 既 涵盖 骸 
套 模 型 又 涵盖 非 退 套 模型 ,并 且 更 为 显著 的 是 ,人 允许 数据 生成 过 程 成 为 既 不 同 于 
f(，) 叉 不 同 于 g(*) 的 未 知 密 度 。 / 

此 处 阐述 人 征 的 洒 近 第 采 , 有 助 于 理解 俩 在 其 论文 中 阐明 的 各 种 检验 ,这 些 渐 近 
结果 相对 很 复杂 ,如 辣 在 一 些 情况 下 ,检验 统计 量 是 含有 权 数 的 卡 方 和 ,其 权 数 很 
难 计 算出 来 。 

侈 提出 以 下 检验 : 


n LY 6 | 一 (8 43) 


po Bl 
。 kb gC(y|X,”Y) 


其 中 ,Eo。 表示 关于 真实 数据 生成 过 程 h(y|x) 的 期 望 ,此 真实 数据 生成 过 程 可 能 是 
未 知 的 。 这 等 价 于 去 检验 ELln(h/g)j 一 ELlin(h/ 了 二 0, 或 检验 f 与 g 两 个 密 
度 是 否 具 有 相同 的 库 尔 贝 克 -- 利 布 勒 信息 准则 (参见 5. 7. 2 节 )。 就 
Hj: EoLln(f/g)]>0 与 Hi: EoLin(f/g) j< 0 而 言 , 可 能 具有 一 种 单 侧 的 可 供 
选择 方案 。 

Ho 的 一 个 明显 检验 是 , 式 (8. 42) 定 义 的 样本 类 似 形式 LR(6 , 3) 是 否 异 于 0 
的 m 检验 。 此 处 ,检验 统计 量 的 分 布 可 借助 于 可 能 未 知 的 数据 生成 过 程 来 获得 。 
这 样 做 是 可 行 的 ,因为 由 5.7.1 节 , 准 MLE 9 收 伍 到 伪 真 值 9 ,并 且 VN(6 一 06) 
服从 极限 正 态 分 布 , 准 MLE 了 具有 类 似 结 果 。 

一 般 性 结果 

所 得 到 的 LR(8 ,了 了 ) 分 布 ,依据 两 个 模型 在 f(y|x,90.) 一 gCy|x, 了 Y; ) 的 意义 上 
是 否 等 价 而 变化 ,其 中 ,6. 与 y* 分 别 表示 8 与 > 的 伪 真 实 值 ,这 两 个 模型 可 能 都 不 
正确 。 

当 f(y|x,0,) 一 g(y|x, 了 Y: ) 时 ,有 : 


~ d 
2LR(G, 7) Mo CO) (8. 44) 


其 中 ,p 与 gq 分 别 表示 9 与 7 的 维 数 ,而 M+s(X,) 表 示 卡 方 变量 加 权 和 2 全 ?4 2; 
的 cdf。Z? 是 iidX (1), 而 4 是 (p 十 gq) X(p 十 q) 阶 矩阵 


w-| —B,(0.)A,(0.)! Ba COs A AY) | 


(8. 45) 
—By (YY.,0.)A(O0.) —B,(y.)A CY) 


的 特征 值 ,其 中 ,Ay(0,) 二 EE[(9ln Fag3g ) ,BC ) 一 ELCaln f/90) (931n f/90)]， 
对 于 密度 g(*) ,可 类 似 定 义 矩 阵 As (7y,) 与 B, (7，) ,交叉 矩阵 Bj (6., 了 ,) 二 
EuoL(Caln f/90) (alin g/ay )] ,而 且 期 望 是 关于 真实 数据 生成 过 程 的 。 对 于 这 些 
结果 的 解释 与 推导 ,参见 铺 (Vuong，1989) 。 

相反 , 当 Fy|x,6.) 天 gCy|x,7 时 ,在 瑟 下 有 : 
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< a 
N -2LRC9, 了) 一 人 WO | (8. 46) 
其 中 
0 =Vo| In LY 0 | (8. 47) 
g(Yy | 入 ， 了 * ) 


而 方差 是 关于 真实 数据 生成 过 程 的 。 其 推导 过 程 , 可 再 次 参见 僵 (Vuong，1989) 。 

应 用 这 些 结 采 ,会 随 着 假定 一 个 模型 是 否 被 正确 设 定 以 及 两 个 模型 之 间 是 否 
有 藤 套 关系 而 变化 。 

翁 对 三 种 模型 加 以 比较 并 辨别 。 模 型 Fy 与 G, 是 ; (1) 许 套 的 (nested) ,满足 
G, 拥 套 在 Fo 之 中 ,如 果 G, CEo;(2) 严 格 非 能 套 的 (strictity non-nested), 当 且 仅 当 
Fof cy 二 %, 因 此 ,两 者 之 中 的 任 一 模型 都 不 是 另 一 个 模型 的 特殊 化 ; (3) 交 香 的 
(overlapping) ,如果 请 门 Gy 关 $, 并 且 王 守 G;y 以 及 G, 生 Fo。 佩 萨 兰 和 佩 萨 兰 (Pe- 
saran and Pesaran，1995) 曾 做 出 一 种 类 位 区 别 。 

不 论 是 (2) 还 是 (3) ,都 是 非 租 套 模型 ,但 它们 需要 不 同 的 检验 方法 。 严 格 非 钥 
套 模型 的 例子 是 含有 不 同 误差 分 布 的 线性 模型 ,也 是 含有 相同 误差 分 布 但 对 条 件 
均值 函数 来 说 不 同形 式 的 非 线性 回归 模型 。 对 于 交友 模型 来 说 , 两 个 模型 的 某 些 
特殊 化 是 相等 的 。 一 个 例子 是 ,含有 一 些 相 同 的 回归 元 而 一 些 回归 元 不 同 的 线性 
模型 。 

奶 套 模型 | 

就 谋 套 模型 而 言 ,一 定 有 f(y|x,0.) 二 gC(y|x,Y:) 的 情况 。 对 于 G, 身 套 在 F， 
之 中 ,Ho 是 对 也/: EoLlin(CJ/g)j>0 的 检验 。 

一 旦 利用 式 (8. 45) 中 W 的 样本 类 似 形式 的 特征 值 A ,对 密度 可 能 错误 设 定 来 
说 ,加 权 卡 方 结果 (8. 44) 是 合适 的 。 如 车 不 然 , 人 们 能 使 用 如 下 较 小 矩阵 的 样本 类 
似 形式 的 特征 值 4): 

W=B,(0,)L DCGYy.)A 7) 'D(Y.) 一 Ar(C9.) !)] 


其 中 ,D(Y;) 二 98(Y.)/97 ,而 约束 的 准 MLE 6 一 (7), 参 见 箱 (Vuong，1989) 论 
文 。 这 一 结果 提供 关于 了 艇 套 模型 的 标准 LR 检验 的 稳健 形式 。 

当 和 密度 f(*) 确 实 被 正确 设 定 时 ,或 更 一 般 地 满足 信息 矩阵 等 式 , 就 得 到 了 预 
期 结果 ;2LRCG6 ,了 ) 全 XCp 一 g) ,从 而 W 或 W 的 特征 值 (p 一 gq) 等 于 1, 而 其 他 情况 
下 则 等 于 0。 

严格 非 候 套 模 型 

就 严格 非 笛 套 而 言 ,一定 有 fty|x,0,) 关 g(y|x, 字 ) 的 情况 。 运 用 正 态 分 布 结 
果 (8. 46) ,w; 的 一 致 估计 值 是 : 


~ _1l~ fy;|x;,0) 1 fly: |x;,0) ‘ 
2 N22 (D gly; | 2 ) 一 (N22 hm wy wm) ) (5. 48) 


因而 ,形成 : 


、 d 
Tir=N “LR(O,7Y)/w > NLoO,1| (8. 49) 
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对 临界 值 为 c 的 检验 来 说 , 当 Tig>c 时 ,拒绝 万, ,支持 Hj: Eol ln(f/g)]>0; 当 
TiR< 一 < 时 ,拒绝 HH， , 文 持 H,: EoLlln(f/g) jj 二 0; 而 当 Tir| 过 ec 时 ,在 两 个 模型 
之 间 区 分 是 不 可 能 的 。 对 此 检验 加 以 修改 ,以 便 允 许 对 数 似 然 惩 罚 类 似 于 AIC 与 
BIC; 参 见 箱 (Vuong，1989 ,第 316 页 )。 与 式 (8. 49) 渐 近 等 价 的 统计 量 , 用 恰好 等 
于 式 (8. 48) 右 边 第 一 项 的 属 代替 品 *。 

这 种 检验 假定 ,两 个 模型 都 被 错误 设 定 。 相 反 , 当 假设 其 中 一 个 模型 被 正确 设 
定 ,就 要 运用 8. 5. 2 节 的 考 克 斯 方法 。 

交友 模型 

就 交 普 模型 而 言 ,至 于 是 否 有 f(y|x,6;) 二 gly|x,~Y;) 的 情况 ,其 先 验 信息 不 
清楚 ,而 首先 需要 人 们 去 检验 这 个 条 件 。 

全 (Vuong，1989) 提 出 ,检验 式 (8.47) 定 义 的 哆 是 否 等 于 0, 因 为 吧 = 二 0 当 且 
仅 当 f(.) 二 gC(*)。 因 此 ,要 计算 式 (8.48) 中 的 这 。 在 :名 = 二 0 下, 有. 


ad 
No’— M,:,. (XA,) (8. 90) 


其 中 ,Mprs(X,) 的 分 布 已 在 式 (8. 44) 后 面 加 以 定义 。 利 用 式 (8. 45) 中 W 的 样本 类 
似 形式 的 特征 值  , 当 在 水 平 a 上 NG? 大 于 M1, (和 A) 分 布 的 a 百 分 位 数 时 ,就 拒 
绝 Hs 假设 。 否则 ,更 简单 地 ,人 们 能 检验 0, 与 7 必须 满足 fC: ) 二 gC ) 的 条 件 。 
为 此 , 利 因 和 釜 (Lien and Yuong，1987) 已 经 给 出 一 些 例子 ，。 

倘若 不 扰 绝 五 ; 或 不 拒绝 f(*) 一 gC:) 条 件 , 则 其 结论 是 ,不 可 能 对 给 定数 据 
时 的 两 个 模型 加 以 区 分 。 知 拒绝 Hs 或 拒绝 f(:)= 二 g(:) 条 件 ,; 则 Ho 对 Hj 或 H， 
利用 Tig 检 验 来 进行 ,更 详细 的 内 容 如 同 在 严格 非 艇 套 的 情况 下 所 述 。 在 后 一 种 
情况 下 ,显著 性 水 平 至 多 是 两 个 检验 中 显著 性 水 平 最 大 值 的 那 一 个 。 

这 个 检验 假定 两 个 模型 均 被 错误 设 定 。 相 反 , 当 假 定 一 个 模型 被 正确 设 定时 ， 
由 于 两 个 模型 是 等 价 的 , 男 一 个 模型 也 必 被 正确 设 定 。 因 此 ,在 Hs 下 ,f(y|x,0,) 一 
gly|x,~Y,) ,并 能 直接 利用 加 权 卡 方 结 果 (8. 44) 去 变动 LR 检验 。 设 与 c 分 别 
表示 上 侧 尾 部 临界 值 与 下 侧 尾 部 临界 值 。 当 2LR(0, 闻 ) 之 cl 时 ,拒绝 已 ,支持 
和 当 2LR(0, 让 ) < 一 Ca? 时 ,拒绝 H, , 文 持 H., ; 否则 ,无 法 确定 愉 验 结果 。 


8. 5.4 直人 他 非 谋 套 模 型 比 袭 


前 面 的 方法 都 被 限制 在 完全 参数 模型 上。 对 仅仅 作为 部 分 参数 化 的 模型 , 例 
如 ,不 具有 正 态 性 假设 的 线性 回归 ,进行 辨别 的 方法 就 不 太 清 楚 。 

8. 5. 1 节 的 信息 准则 能 利用 损失 函数 而 不 是 KLIC 所 发 展 起 来 的 准则 来 代替 。 
两 官 (Amemiya，1980) 曾 经 阐述 对 应 于 各 种 不 同 损失 函数 的 一 系列 测量 。 这 些 测 
量 经 常 引 发 靠 套 模型 ,但 也 可 用 于 非 肉 套 模型 。 

一 种 简单 方法 是 比较 预测 能 力 ? 即 选 取 具 有 最 小 均 方 误差 (CN 一 9) | 2 Cy; 一 多 )- 
值 的 那 种 模型 。 对 线性 回归 而 诗 , 这 等 价 于 选择 含有 最 大 调整 R* 的 模型 ,通常 认 
为 它 提 供 了 很 小 模型 复杂 性 的 惩 列 。 对 非 参 数 模 型 的 一 种 改进 是 ,去 抒 一 个 进行 
交叉 验证 (leave-one-out cross-validation) (人 参见 9.5.3 市 )。 

在 非 似 然 情 况 下 ,辨别 非 般 套 模型 的 正式 检验 ,和 党 是 采用 两 种 方法 之 一 。 一 
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种 方法 是 由 戴维森 和 才 金 农 (Davidson and MacKinnon，1984) 提 出 的 人 工 周 套 
(artificial nesting) ,该 方法 把 两 个 租 套 模型 构 套 到 一 个 更 一 般 的 人 工 模 型 之 内 ,从 
而 半 臻 所谓 的 检验 与 P 检验 ,还 有 其 他 一 些 有 关 检 验 。 另 一 种 方法 是 由 米 宗 和 
理 查 德 (Mizon and Richard，1986) 提 出 的 包容 原理 (encompassing principle) , 该 方 
法 村 致 一 个 相当 一 般 的 框架 ,用 于 检验 一 个 模型 与 其 竞争 的 一 个 非 谋 套 模型 。 怀 
特 (White，1994) 将 此 方法 与 CM 检验 联系 起 来 。 对 此 类 文献 概述 ,可 参见 戴维森 
和 麦 金 农 (Davidson and MacKinnon，1993 ,第 11 次 ) 。 


8.5.5 非 艇 套 模 型 的 例子 


从 泊 松 模型 中 生成 100 个 观测 值 的 样本 ,该 泊 松 模型 均值 ELy|xj] 二 exp(8Bi 十 
应 rz 十 房 -zs ) , 其 中 LE 9、 省 人 ~ 人 0， 1 | ， (pb , /32 ， ) 一 《0., D 0. 2, 0 D) 。 因 态 量 Vy 的 均 
值 为 1. 92 ,标准 差 为 1. 84。 现 个 不 正确 的 非 自 套 模 型 可 由 泊 松 回归 加 以 估计 : 


模型 1. Efy|x] 二 exp(0. 060 8 十 0. 291x;) 
(8. 08) (4. 03) 


模型 2: E[ ylx | 二 exp(0. 493 二 0. 35973 十 0. 091x2) 
(D, 14) 《5. 10) (1.78) 
其 中 ,统计 量 已 由 下 面 括 导 给 出 、 
表 8. 2 的 前 三 行 给 出 各 种 不 同 的 信息 准则 ,具有 最 小 值 的 模型 更 好 。 第 一 个 
并 没有 惩罚 参数 个 数 , 而 且 支 持 模型 2。 式 (8. 40) 与 式 (8. 41) 中 定义 的 第 二 个 与 
第 三 个 测量 给 出 了 了 对 模型 的 较 大 惩罚 ,具有 额外 的 参数 ,但 仍 导 致 支持 较 大 的 模型 2。 


表 8.2 泊 松 回归 非 岂 套 模型 比较 例子 


”检验 类 型 异型 1 模型 2 结论 
—2lnL. | 366. 86 352. 18 第 二 个 模型 更 好 
AIC 370. 86 358. 18 第 二 个 模型 更 好 

BIC 376. 07 366. 00 第 二 个 模型 更 好 
No’ 以 p 二 0.000 具有 7. 84 能 区 分 

Tin=N ?LR/G 以 p 二 3,777 具有 一 0. 883 没有 模型 受到 支持 


是 对 非 交 谷 模 型 的 俩 检验 (参见 正文 )。 

表 8. 2 的 最 后 两 行 归纳 总 结 了 翁 检 验 , 即 交 礁 模型 的 检验 。 

首先 , 当 在 伪 真 实 值 处 计算 时 ,要 对 密度 等 式 条 件 进行 检验 。 已 知 密度 表达 
式 ,很 容易 计算 出 式 (8. 48) 的 统计 量 必 。 困 难 部 分 是 计算 式 (8. 45) 中 W 和 宅 阵 的 估 
计 值 。 对 泊 松 密度 而 言 , 可 能 使 用 5. 2. 3 节 结 尾 定义 的 A 与 名, 以 及 B= 
NO;(Cyj 一 fn)Xp (yi; 一 Vw )x%。W 的 特征 值 是 二 0.29, hy 二 1.00, A 二 1.06， 
入 二 1.48 以 及 ;一 2.75。 检 验 统 计量 Ne? 的 p 值 具有 由 式 (8. 44) 给 出 的 分 布 ,该 
p 值 作为 抽取 2;-.14z; 的 比例 而 获得 ,比如 说 抽取 10 000 次 ,这 大 于 Na: 一 69. 14。 
此 处 ,p 二 0.000 二 0.05, 从 而 我 们 得 出 结论 :在 两 个 模型 之 间 进 行 辨别 是 可 能 的 。 
在 水 平 0. 05 上 ,这 个 例子 的 临界 值 等 于 16. 10, 它 比 X05(5) 二 11. 07 大 许多 。 


微观 经 济 计量 学 


已 知 区 分 模型 是 可 行 的 ,那么 就 能 应 用 第 二 个 检验 。 此 处 ,TiRg 王 一 0. 883 支 
持 模型 2, 因 为 它 是 负 的 。 不 过 ,利用 5% 水 平 上 的 标准 正 态 双 侧 检验 ,其 差异 并 不 
是 统计 显著 的 。 在 该 例子 中 ,w 是 相当 大 的 ,这 意味 着 第 一 个 检验 统计 量 Nw? 是 
很 大 的 ,但 第 二 个 检验 统计 量 NLR(6, 池 )/w 是 很 小 的 。 


8.6 检验 结果 


在 实际 应 用 中 ,寻找 到 更 好 模型 之 前 ,要 实施 一 个 以 上 的 检验 。 这 会 出 现实 践 
者 时 第 忽略 的 几 种 复杂 情况 。 


8.6.1 预先 检验 估计 


为 了 选取 柳 型 ,使 用 设 定 检验 , 这 样 做 会 使 估计 量 的 分 布 复杂 化 。 例 如 ,假定 
我 们 根据 在 5% 水 平 上 的 统计 检验 ,在 两 个 估计 量 6 与 6 之 间 进 行 选择 。 比 如 ,6 
与 8 可 以 是 无 约束 模型 的 估计 量 与 约束 模型 的 估计 量 。 于 是 ,实际 估计 量 是 b+ = 
wb 十 (1 一 w)9, 当 检验 支持 8 时 , 则 随机 变量 w 取 值 为 1; 而 当 检 验 支 持 6 时 , 则 
随机 变量 w 取 值 0。 总 之 ,估计 量 依 赖 于 约束 估计 量 与 无 约束 估计 量 , 并 且 依 赖 于 
随机 变量 ww, 同 样 也 依赖 于 检验 的 显著 性 水 平 。 因 此 ,91 是 一 个 具有 复杂 性 质 的 信 
计量 。 这 称 为 预先 检验 估计 量 (pretest estimator) , 因为 该 估计 量 建立 在 初始 检验 
的 基础 上 。6 分 布 可 通过 正 态 性 下 的 线性 回归 模型 来 获得 ,并 且 是 非 标 准 的 。 

从 理论 上 看 ,统计 推断 应 建立 在 .和 分 布 的 基础 上 。 实 际 应 用 中 , 若 忽 略 w 的 
随机 性 ,当世 =1 时 ,将 推断 建立 在 8 分 布 的 基础 上 ,或 当 w= 二 0 时 , 则 将 推断 建立 
在 6 分 布 的 基础 上 。 为 了 简单 起 见 就 这 样 做 ,因为 甚至 在 最 简单 的 模型 中 , 当 实 施 
这 几 类 检验 时 ,估计 量 分 布 也 会 变 得 难以 处 理 。 


8. 0. 2 ” 花 欠 顺序 


根据 实施 检验 的 顺序 不 同 ,人 们 获得 各 种 不 同 结论 。 

一 种 可 行 的 顺序 是 从 一 般 到 特殊 (general to specific) 模 型 。 例 如 ,在 对 来 自 消 
费 者 需求 理论 的 约 训 譬如 辐 质 性 与 对 称 性 进行 检验 之 前 ,人 们 估计 需求 的 一 般 模 
型 。 或 者 ,整个 过 程 可 从 特殊 到 一 般 (specific to general) 模 型, 伴 有 需要 添加 回归 
元 及 额外 的 复杂 情况 ,譬如 控制 内 生性 , 倘 奉 存在 ,当选 择 哪 一 个 回归 元 进入 模型 
时 ,这 种 顺序 是 自然 而 然 的 ,但 当 还 要 实施 设 定 检验 时 ,一 种 普遍 做 法 是 ,在 同样 的 
一 项 研究 中 , 既 运 用 一 般 到 特殊 的 顺序 ,又 运用 特殊 到 一 般 的 顺序 。 

一 个 相关 问题 是 ,联合 检验 与 单独 检验 (joint versus separate tests)。 例 如 ,两 
个 回归 元 的 显著 性 可 以 通过 两 个 显著 性 上 检验 来 加 以 验证 ,也 可 以 通过 联合 下 检 
验 或 显著 性 X (2) 检 验 来 验证 。 一 般 性 讨论 已 在 7. 2.7 节 给 出 ,而 例子 稍 后 由 
18.7 节 给 出 。 


8.6.3 数据 疹 氟 


作为 一 种 极端 形式 ,广泛 运用 的 选择 模型 的 检验 被 称 为 数据 挖 气 (data min- 
ing)[ 洛 弗 尔 (Lovell，1983)]。 例 如 ,人 们 可 在 几 百 个 可 能 的 y 的 预测 元 之 间 进 行 
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探索 ,然后 选取 仅仅 在 双 侧 检验 水 平 5% 上 是 显著 的 那些 预测 元 。 存 在 自动 搜索 
的 计算 机 程序 ,在 应 用 统计 学 的 一 些 分 支 上 ,已 被 广泛 应 用 。 不 辛 的 是 ,这 种 广泛 
搜索 将 发 现 伪 关系 ,因为 具有 水 平 0. 05 的 检验 会 产生 时 间 的 5% 统 计 显 著 性 的 错 
误 上 发 现 。 洛 弗 尔 指出 ,应 用 这 种 方法 倾向 于 高 估 拟 合 优 度 测 量 与 低估 回归 系数 的 
抽样 方差 ,甚至 当 它 成 功 揭露 以 数据 生成 过 程 为 特色 的 变量 时 。 一 且 使 用 标准 检 
验 , 并 报告 没有 考虑 搜索 模型 程序 的 p 值 , 该 方法 会 使 人 产生 误解 ,因为 名 义 了 值 
与 实际 p 值 是 不 同 的 。 怀 特 C(White，2001b) 以 及 沙 利文 . 蒂 默 曼 和 怀特 (Sullivan， 
Timmerman，and White，2001) 证 明 ,如 何 运 用 目 助 法 计算 回归 元 的 真实 统计 显著 
性 。 还 可 参见 P. 汉 条 (P.， Hansen，2003 ) 。 

有 时 ,数据 控 据 的 动因 是 为 了 保存 日 由 度 ,或 避免 过 度 参数 化 ( 杂乱 ”)。 更 重 
要 的 是 , 设 定 的 诸多 方面 ,比如 协 变量 的 图 数 形式 ,都 未 能 由 基本 理论 解决 。 已 知 
设 定 的 不 确定 性 ,人 存 在 判断 搜索 设 定 正确 的 依据 L 院 根 (Sargan，2001)j。 不 过 , 当 
对 小 样本 进行 分 析 , 并 设 定 研究 的 数目 相对 于 样本 量 很 大 时 ,就 要 格外 小 心间 慎 ，。 
当 设 定 研 究 是 时 序 的 ,并 且 有 相当 多 的 步骤 ,同时 每 一 步 都 要 由 前 面 检验 结果 来 确 
定 , 该 种 程序 的 统计 性 质 总 体 上 是 复杂 的 , 且 在 解析 形式 上 难以 处 理 。 


8.6.4 实用 方法 


应 用 微观 经 济 计量 学 研究 通常 运用 明确 的 假设 检验 来 最 小 化 预先 检验 问题 。 
经 济 理论 用 于 指导 对 回归 元 的 选择 ,大 大 减少 潜在 回归 元 的 数目 。 当 样本 量 很 大 
时 ,通过 去 掉 “ 不 显著 的 ”变量 ,使 得 目标 变 小 。 最 终结 果 常 弟 是 运用 包括 用 于 控制 
变量 的 、 统 计 不 显著 的 回归 元 ,诸如 工资 回归 中 的 地 区 .行业 以 及 职业 等 虚拟 变量 。 
通过 不 报告 完全 模型 设 定 中 不 重要 的 系数 ,能 够 避免 聚集 ,但 要 在 合适 的 地 方 注意 
这 样 一 种 事实 。 这 会 导致 在 信 计 所 关注 的 重要 回归 元 时 ,损失 一 些 准 确 性 ,但 可 预 
防 由 错误 去 反应 该 被 包括 进入 的 变量 而 引起 的 偶合 。 

一 种 好 的 实用 做 法 是 ,对 说 定 探究 及 模型 选择 来 说 , 仅 使 用 部 分 样本 (训练 样 
本 ”) ,然后 利用 完全 独立 的 部 分 样本 (“估计 样本 ”) ,去 报告 运用 偏爱 模型 所 估计 出 
的 结果 。 在 这 种 情况 下 , 倘 奉 子 样本 是 独立 的 ,预先 检验 就 不 会 影响 到 估计 量 分 
布 。 由 于 在 最 后 估计 时 ,利用 不 完全 样本 会 导致 估计 量 准确 性 的 损失 , 故 该 方法 通 
第 只 有 在 样本 量 非 常 大 时 才 会 应 用 。 


8. 7 ”模型 诊断 
本 节 讨 论 非 线性 模型 的 拟 合 优 度 测 量 和 残 差 的 定义 。 一 种 有 用 的 测量 是 那些 
在 某 个 特定 方面 揭示 模型 不 足 的 测量 。 
8.7.1 仿 R? 测量 


拟 合 优 度 被 解释 为 拟 合 值 对 因 变 量 样本 值 的 接近 程度 。 
对 具有 天 个 回归 元 的 线性 模型 来 说 ,一 种 最 直接 的 测量 是 回归 标准 误差 
(standard error of the regression ) , 它 是 误差 项 的 估计 标准 差 : 
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例如 ,在 对 数 工 资 回 归 中 ,0. 10 的 回归 标准 误差 ,意味 着 拟 合 值 的 大 致 95% 处 于 对 
数 工 资 真 实 值 的 0. 20 之 内 ,或 处 于 利用 er? 二 1. 22 的 真实 工资 的 22% 之 内 。 除 自 
由 度 校正 之 外 ,这 种 测量 与 样本 均 方 根 误差 是 一 样 的 ,其 中 ,六 被 看 成 是 y; 的 预 
测 。 作 为 一 种 可 供 选 择 的 方法 ,人 们 使 用 平均 绝对 误差 (mean absolute error) 
(六 一 天 ) >;|y; 一 31|。 当 非 线 性 模型 得 出 因 变 量 的 预测 值 3 ,同样 的 测算 能 用 
于 非 线 性 回归 模型 上 。 

线性 模型 中 有 关 的 测量 是 R*, 即 多 重 测定 系数 (coefficient of multiple deter- 
mination) 。 它 解释 了 由 回归 元 解释 因 变 量变 异 的 部 分 。 统 计量 R* 比 s 更 广泛 地 
被 报告 ,尽管 ; 在 计算 拟 合 度 时 可 能 包含 更 有 价值 的 信息 。 

伪 R? (pseudo-R* ) 是 R* 对 非 线 性 回归 模型 的 推广 。 线 性 模型 的 R* 有 几 种 解 
释 。 这 导致 了 非 线 性 模型 中 不 同 的 几 种 可 能 的 伪 R? 测量 ,并 且 不 一 定 具 有 位 于 
0 一 1 之 间 的 性 质 , 以 及 随 添 加 回归 元 而 增 大 的 性 质 。 为 了 简单 起 见 ,我 们 曾 述 不 
调整 目 由 度 的 几 种 此 类 测量 。 

一 种 方法 是 把 R* 建立 在 总 平方 和 (TSS) 分 解 的 基础 上 ,得 出 : 


2 83) 一 2 yD) DD 22 yi — 3) (3 — 3) 


右边 第 一 项 和 是 残 差 平方 和 (RSS) , 而 第 二 项 是 锌 解释 平方 和 (ESS)。 从 而 ,得 到 
两 种 可 行 的 测量 : 


对 于 含有 截 距 线 性 模型 的 OLS 回归 来 说 ,第 三 项 和 等 于 0, 所 以 Rres 二 Rexwwp。 但 
是 ,这 种 简化 在 其 他 模型 中 不 会 出 现 ,而 且 在 非 线 性 模型 中 ,通常 Rkps 关 Rexw。 测 
量 Res 能 小 于 0,Rtm 能 大 于 1, 同 时 这 两 个 测量 随 着 添加 回归 元 而 减少 ,尽管 对 非 
线性 模型 的 NLS 回归 而 言 ,Rges 将 增 大 ,从 而 该 估计 量 对 RSS 求 极 小 值 。 

一 种 紧密 相关 的 测量 是 使 用 : 


Reon = Cor | yy ? y; 


即 真实 值 与 拟 合 值 之 间 的 平方 相关 系数 。 测 量 Re 位 于 0 一 1 之 间 ,对 于 含有 截 距 
的 线性 模型 来 说 , 它 等 于 OLS 回归 的 尽 。 在 非 线性 模型 中 ,Re 随 着 添加 回归 元 
增多 而 递减 。 

第 三 种 方法 是 ,使 用 加 权 平 方 和 ,以 便 控制 横 截 面 数据 的 内 在 异 方差 性 。 设 地 
表示 的 拟 合 条 件 方差 , 其 中 ,假定 异 方差 性 可 以 用 显 性 方式 进行 建 模 ,对 于 
FGLS 以 及 一 些 模 型 璧 如 logit 和 泊 松 模型 来 说 ,确实 如 此 。 那 么 ,我 们 能 使 用 : 

: R2 一 1 一 WRSS/WTSS 


其 中 ,加 权 残 差 平方 和 WRSS 二 ,Cy 一 5.)/6?，WTSS 一 (yi 一 P16 ,而 与 0 
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分 别 表示 仅 有 截 距 的 模型 中 的 估计 均值 与 方差 。 这 被 称 为 皮尔 逊 R? ,因为 WRSS 
等 于 皮尔 逊 统计 量 , 除 任何 有 限 样 本 校正 之 外 , 若 异 方差 性 被 正确 建 模 ,这 应 等 于 
N。 注 意 到 ,Rwss 可 以 小 于 0, 且 随 着 添加 回归 元 增多 而 减少 。 

第 四 种 方法 是 ,R? 针对 目标 函数 而 不 是 平方 残 差 和 加 以 推广 。 设 QN (C0) 表示 
饿 求 极 大 值 的 目标 了 葬 数 ,Qo 表示 仅 含 有 截 踢 模型 时 的 值 ,Qs 表示 拟 合 模 型 的 值 , 而 
Qnmx 表 示 Qn (0) 的 最 大 可 能 值 。 于 是 , 因 包 含 回 归 元 而 引起 的 目标 函数 的 最 大 洪 
在 收益 是 Qwax 一 Qo ,而 实际 收益 是 Qs 一 Qo。。 这 就 建议 使 用 : 

2 Qi 一 0 max < fit 

Re 
进行 测量 ,其 中 ,下 标 RG 意味 着 相对 收益 (Crelative gain) 。 就 最 小 二 乘 估 计 而 言 ， 
损失 函数 极 大 化 是 负 的 残 差 平方 和 。 从 而 ,Qo 王 一 TSS,Qa 一 一 RSS 以 及 Qnmex 二 0， 
因此 ,对 OLS 或 NLS 回归 来 说 ,Ri 王 ESS/TSS。 测 量 R23. 具 有 位 于 0 一 1 之 间 的 
优点 , 且 随 着 添加 回归 元 增多 而 增 大 。 就 极 大 似 然 估 计 而 言 ,损失 捕 数 是 Qv(0) 三 
In LN(9) 。 于 是 ,不 能 总 是 使 用 Rg; ,因为 在 一 些 模型 中 ,Qu 可 能 是 无 界 的 。 例 
如 ,对 线性 模型 来 说 ,在 正 态 性 下 , 当 于 一 0 时 ,LNCG,o) 一 ce。 对 线性 指数 族 模 型 
的 极 大 似 然 以 及 拟 极 大 似 然 估 计 来 说 ,譬如 logit 与 泊 松 ,Quwx* 通 常 是 已 知 的 ,并 且 
可 以 证 明 ,Rg; 是 建立 在 下 一 节 定 义 的 残 差 离 差 的 基础 上 。 

与 RR; 有 关 的 测量 是 Ro 一 1 一 Qs/Q。 该 测量 会 随 着 添加 回归 元 增多 而 增 大 。 
当 Qswwx 一 0 时 , 它 等 于 R& ,这 正 是 OLS 回归 与 二 值 及 多 项 式 模 型 的 情况 。 另 外 ， 
就 离散 数据 而 言 ,这 一 测量 可 能 具有 小 于 1 的 上 界 ; 而 对 连续 数据 来 说 ,此 测量 可 
能 并 不 介 于 0 与 1 之 间 , 这 是 因为 ,对 数 似 然 可 以 是 负 的 或 正 的 。 例 如 ,对 具有 连 
续 密 度 的 ML 估计 来 说 ,可 能 出 现 Q。= 二 1 且 Qn 一 4, 导致 Re 一 一 3; 或 者 可 能 出 现 
一 一] 且 Qan 一 4, 导 致 Ro 一 5。 

因此 ,对 非 线性 模型 来 说 ,不 存在 普遍 性 的 伪 R*:。 最 有 用 的 测量 或 许 是 Recon， 
因为 相关 系数 容易 进行 解释 ,以 及 在 Qu 为 已 知 的 一 些 特殊 情况 下 的 RK;。 卡 梅 伦 
和 温 德 梅 杰 (Cameron and Windmeijer，1997) 对 许多 测量 进行 了 分 析 , 并 且 卡 梅 伦 
和 温 德 梅 杰 (Cameron and Windmeijer，1996) 则 将 这 些 测量 用 到 计数 数据 模型 上 。 


8. 7. 2 残 差 分 析 


与 统计 学 的 一 些 其 他 领域 相 比 ,微观 经 济 计 量 学 分 析 确 实 较 少 强调 残 差 分 析 。 
当 数 据 集 很 小 时 ,关注 的 内 容 是 , 残 差 分 析 可 能 导致 对 模型 的 过 度 拟 合 。 当 数据 集 
很 大 时 , 厌 有 如 下 看 法 ,没有 必要 进行 残 差分 析 , 因 为 单个 观测 值 对 分 析 上 有 具 有 很 小 
的 影响 。 因 此 ,我们 给 出 一 个 简要 的 综述 。 例 如 ,更 全 面 的 讨论 已 由 麦 卡 拉 和 内 和 尔 
德 (McCullagh and Nelder，1989) 以 及 卡 梅 伦 和 特 里 维 迪 (Cameron and Trivedi， 
1998, 第 5 章 ) 给 出 。 特 别 地 ,经 济 计量 学 家 对 删 失 模型 和 截取 模型 中 定义 的 残 差 

就 非 线 性 回归 模型 而 言 , 已 提出 一 系列 范围 广泛 的 残 差 。 考 察 纯 量 因 变 量 y;， 
其 拟 合 值 站 二 [二 (xi ,0 )。 原 始 残 差 (raw residual) 是 7; 二 y; 一 fj。 皮尔 还 残 差 
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(Pearson residual) 是 对 异 方 差 性 p; 一 (yi; 一 p)/6i 的 一 种 明显 修正 ,其 中 ,6 表示 
yi 的 条 件 方差 的 估计 值 。 这 就 需要 对 yw 方差 进行 设 定 ,对 泊 松 模型 就 是 这 样 做 
的 。 对 LEF 密度 来 说 (参见 5. 7. 3 节 ), 离 差 残 差 (deviance residual) 是 4d; 一 
sign(y; — pi) V2L (Cy;) — L(g)], 其 中 ,L(Y) 表示 YY [4 的 对 数 密度 在 yx YY 处 的 计算 
仁 , 而 4 表示 在 x 二 六 处 的 计算 值 。 离 散 残 差 的 动因 是 ,这 些 残 差 的 平方 和 作为 
离 差 统计 量 , 它 是 对 线性 模型 中 的 原始 残 差 和 的 LEF 模型 的 一 种 推广 。 安 斯 科 姆 
残 差 (Anscombe residual) 被 定义 成 y 的 一 种 变换 ,该 变换 使 得 y 最 接近 于 正 态 性 ， 
然后 正规 化 成 均值 为 0 日 方差 为 1 的 情况 。 就 LEF 密度 而 言 , 可 获得 这 样 的 变换 。 

为 了 解释 &; 中 的 信 计 误差 ,提出 一 种 残 差 对 小 样本 进行 修正 。 对 线性 模型 而 
言 , 这 需要 残 差 被 V1 一 hi 去 除 ,其 中 ,hi 表示 帆 矩 阵 理 一 XC(XXX) !'X 中 的 第 i 个 对 
角 元 素 。 这 些 残 差 被 认为 具有 较 好 的 有 限 样本 特性 。 由 于 五 的 秩 为 K, 即 回归 元 
的 个 数 ,h;; 的 平均 值 是 KK/N, 而 且 大 于 2K/N 的 hi; 的 一 些 值 被 看 成 具有 高 的 杠杆 
作用 。 这 些 结果 可 扩展 到 满足 H 一 WX(X WX) '!XW'” 的 LEF 模型 上 ,这 里 ， 
W= 二 Diag[vw;; jytwi 二 gg (XiB )/ ,而 g(xXiB ) 与 2 分 别 表 示 设 定 的 条 件 均 值 与 方 
差 。 麦 卡拉 和 内 尔 德 (McCullagh and Nelder，1989) 曾 提供 一 个 综述 。 

更 一 般 地 讲 , 考 克 斯 和 斯 内 尔 (Cox and Snell，1968) 将 广 闵 残 差 (generalized 
residual) 定 义 为 ,满足 相对 弱 条 件 的 任何 纯 量 隙 数 xr; 二 r(y;,xi ,0 )。 得 到 该 残 差 的 
一 种 方式 是 ,许多 佑 计量 拥有 DEX ,Or (Cy; , X, ,0 ) 二 0 形式 的 一 阶 条 件 ， 这 里 ， Yi 
出 现在 纯 量 ”(* ) 中 ,但 不 出 现在 向 量 gC*) 之 中 。 还 可 参见 怀特 (White，1994)。 

对 建立 在 正 态 潜 变量 基础 上 的 回归 模型 (参见 第 14 章 和 第 16 章 ) 来 说 ,切合 
和 艾 里 什 CChesher and Irish，1987) 提 出 ,利用 ElLex |y;j 作 为 残 差 , 其 中 ,yy; 二 4 十 
ei 表示 未 观测 潜 变 量 , 而 y; 二 g(y; ) 表 示 观 测 因 变量 。 对 g(，*) 的 一 些 特殊 选取 ， 
对 应 于 probit 模型 与 Tobit 模型 。 古 里 耶 克 斯 等 人 (Gourieroux et al. ，1987) 把 这 
种 方法 推广 到 LEF 密度 上 。 在 此 背景 下 ,一 种 正常 方法 是 , 镀 看 10. 3 丰 中 期 望 最 
大 算法 的 线索 ,把 残 差 看 成 缺失 数据 。 

对 残 差 的 一 种 普遍 使 用 是 ,将 其 用 于 绘制 对 其 他 关注 变量 的 曲线 图 。 残 差 对 
拟 合 值 的 曲线 图 能 揭示 不 好 的 模型 拟 合 ; 残 差 对 省 略 变量 的 曲线 图 建议 包括 更 多 
的 回归 元 模型 ; 残 差 对 已 包含 回归 元 的 曲线 图 能 建立 需要 不 同 的 函数 形式 。 在 这 
类 曲线 图 中 ,包括 非 参 数 回 归 线 是 有 益 的 (参见 第 9 章 )。 当 数据 只 取 几 个 离散 值 ， 
很 难 对 曲线 图 给 予 解 释 , 因 为 仅 在 几 个 值 上 有 聚集 ,对 此 使 用 所 谓 的 不 稳定 特殊 
性 , 即 向 数据 中 添加 一 些 随 机 噪声 来 减少 聚集 , 则 是 有 益 的 。 

某 些 参数 模型 蕴含 ,适当 定义 的 残 差 应 是 正 态 分 布 的 。 这 能 通过 正 态 分 值 划 
线 图 来 加 以 检验 , 即 把 残 差 7x; 从 小 到 大 进行 排序 ,车 残 差 确 实 显 示 出 正 态 分 布 ,就 
绘制 残 差 对 预测 值 的 曲线 图 。 因 此 ,绘制 有 序 的 对 7 十 s,®“((i 一 0.5)/N) 的 曲 
线 图 ,其 中 ,7 与 s, 分 别 表示 > 的 样本 均值 与 标准 差 ,而 @@ “，(*) 表 示 标 准 正 态 cdf 
的 反 顶 数 。 


8.7.3 诊断 例子 


表 8. 3 使 用 与 8. 5. 5 节 一 样 的 数据 生成 过 程 。 因 变量 y 具有 均值 1. 92 和 标 
准 差 1. 84。y 对 zs 的 泊 松 回归 以 及 y 对 x 及 工 的 泊 松 回归 是 : 
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| 


模型 1， El y|x|=exp(0. 586 十 0. 389z3 ) 
《5. 20) (7. 60) 


模型 2,: E[y|x] 二 exp(0. 493 十 0. 359z3 十 0. 091z2 ) 
(5. 14) (5.10) (].78) 


其 中 ,i 统计 量 已 在 括号 中 给 出 。 
表 8.3 伪 开 : 激 松 回归 例子 * 


诊 断 模型 1 模型 2 差异 
s; 其 中 二 RSS/(N-K) 0. 166 2 0. 166 1 0. 000 1 
Raes 一 1 一 RSS/TSS 0. 188 5 0. 196 2 十 0. 007 7 
Rrxp = TSS/ESS 0. 166 7 0. 208 7 十 0. 040 2 
Rir =Cor Ey;, $] 0. 189 3 0. 196 4 十 0. 0067 
Ry =1— WRSS/WTSS 0. 156 2 0. 169 5 十 0.023 3 
Ri = (Qs 一 Qo)/CQ — Qo) 0. 155 2 0. 171 2 十 0.0160 
Rao=1— Qa /Qo 0. 077 3 0. 080 8 十 0. 007 5 


a NN 二 100。 模 型 1 表示 y 对 截 距 与 xs 的 泊 松 回归 。 模 型 2 表示 y 对 截 距 、z3 以 及 x 的 泊 松 回归 。 
RSS 表示 残 差 平方 和 (SS) ,ESS 表示 被 解释 平方 和 (SS) ,TSS 表示 总 平方 和 ,WRSS 表示 加 权 RSS, WTSS 表 
示 加 权 TSS,Qtt 表 示 目 标 函 数 的 拟 合 值 ,Qo 表 示 仅 有 截 距 模型 的 拟 合 值 ,Qunax 表 示 给 定数 据 以 及 仅 当 某 些 目 
标 活 数 存在 时 目标 函数 的 最 大 可 能 值 。 


在 这 个 例子 中 ,所 有 的 R: 测量 都 随 着 添加 za 作为 回归 元 而 增 大 ,尽管 该 例子 
中 ,最 后 的 R? 几乎 具有 相似 值 ,但 其 他 的 R? 却 具有 截然 不 同 的 数值 。 更 一 般 地 
讲 , 前 三 个 R? 是 标 度 相似 的 ,而 RREs 及 Reor 表 现 十 分 接近 ,只 是 剩 下 的 三 个 测量 
却 具 有 十 分 不 同 的 标 度 。 只 有 最 后 两 个 测量 R? 才 会 保证 随 着 添加 回归 元 增多 而 
增 大 ,除非 目标 郴 数 是 平方 误差 和 。 这 里 ,可 以 建立 测量 R&;, 因 为 如 果 拟 合 均 值 
i= y: , 对 于 所 有 i, 那 么 沪 松 对 数 似 然 是 极 大 化 的 ,从 而 得 出 Q max — 2 yi ln yi;— 
yi 一 ln yi;!j, 其 中 , 当 y 一 0 时 ,有 yln y= 二 0。 

此 外 ,可 计算 模型 2 的 三 个 残 差 。 原 始 残 差 .皮尔 还 残 差 以 及 离 差 残 差 的 样本 
均值 与 标准 差分 别 为 0 与 1. 65.0. 01 与 1. 97、 一 0. 21 与 1.22。 对 原始 残 差 来 说 ， 
该 残 差 具 有 0 均值 ,是 含有 和 截 距 泊 松 回归 的 一 个 性 质 , 此 种 性 质 仅 与 极 少数 的 其 他 
模型 所 共有 。 较 大 的 原始 残 差 标准 差 , 反 映 出 缺乏 标 度 与 y 的 标准 差 大 于 1 的 事 
实 。 这 些 残 差 两 两 之 间 的 相关 系数 全 都 大 于 0. 96。 当 R? 很 小 时 ,可 能 出 现 这 类 
情况 ,因此 yy 。 


8.8 应 用 人 研究 


通过 运用 辅助 回归 ,m 检验 与 葵 斯 曼 检验 都 最 容易 实施 。 人 们 应 该 发 现 ,所 做 
的 这 些 辅助 回归 假设 ,只 在 一 些 分布 假 设 下 才 是 有 效 的 ,这 些 分 布 假设 比 为 获得 回 
归 系 数 的 通常 稳健 的 标准 误差 而 做 出 的 那些 假设 要 强 。 一 些 稳健 检验 已 在 8. 4 节 
曾 述 。 

除了 在 不 现实 情况 下 , 即 模型 的 所 有 方面 一 一 函数 形式 、 回 归 元 和 分 布 一 一 都 


微观 经 济 计 量 学 


mh 


饿 正确 设 定 的 情况 下 ,对 于 充分 大 的 数据 集 以 及 固定 显著 性 水 平 ,比如 5% ,将 会 
拒绝 由 模型 所 蕴含 的 样本 和 矩 条 件 。 在 经 典 检验 情形 下 ,这 经 常 是 人 们 所 希望 的 结 
果 。 特 别 地 ,对 充分 大 的 样本 来 说 ,回归 系数 将 总 是 显著 地 蜡 于 0, 许多 研究 都 探 
讨 过 这 类 结果 。 不 过 ,对 设 定 检 验 而 言 , 人 们 的 要 求 通 常 是 不 被 拒绝 ,因此 ,人 们 可 
以 认为 ,模型 是 被 正确 设 定 的 。 或 许 正 是 因为 这 个 缘由 , 设 定 检 验 才 未 被 充分 运用 。 

举 一 个 例子 ,考察 对 消费 生命 周期 模型 的 正确 设 定 进行 检验 。 除 非 样本 是 小 
的 ,所 人 研究 的 设 定 检 验 式 可 能 存 5%% 水 平 上 拒绝 模型 。 例 如 , 假定 模型 设 定 检 验 统 
计量 服从 X (12) 分 布 , 当 样本 量 N= 二 3 000 时 , 它 的 户 值 为 0.02。 即 使 模型 在 5% 
的 显著 性 水 平 上 被 拒绝 ,但 生命 周期 模型 却 对 数据 给 出 了 不 好 的 解释 ,这 一 点 并 不 
清楚 。 一 种 可 能 性 是 增 大 临界 值 ,因为 一 旦 利用 BIC( 参 见 8. 5. 1 节 ), 样 本 量 将 
增加 。 

设 定 检 验 未 充分 使 用 的 另 一 种 原因 是 , 当 利 用 更 方便 的 辅助 回归 实施 检验 的 
渐 近 等 价 形式 时 ,会 出 现 计 算 上 的 困难 与 不 好 的 检验 水 平 性 质 。 通 过 运用 自助 法 ， 
这 些 贞 点 将 大 大 减少 。 第 11 章 将 阐述 自助 法 ,以便 实施 本 章 给 出 的 一 些 检验 。 


8.9 文献 注释 


8.2 归功 于 纽 韦 (Newey，1985) 与 陶 享 (Tauchen，1985) 的 条 件 矩 检验 ,是 对 
怀特 (White，1982) 的 信息 和 矩阵 检验 的 推广 。 就 ML 估计 而 言 ,m 检验 通过 辅助 回 
归 的 计算 是 对 IM 检验 的 兰 开 斯 特 (Lancaster，1984) 与 切 舍 (Chesher，1984) 方 法 
的 推 1 ”。 帕 甘 和 维 拉 (Pagan and Vella，1989) 给 出 m 检验 一 个 很 好 的 概述 。m 检 
验 提 供 一 种 非常 一 般 的 评述 检验 框架 。 可 以 证 明 , 它 嵌 套 所 有 的 检验 ,譬如 沃 尔 德 
检验 .LM、LR 以 及 豪 斯 曼 检 验 。 怀 特 (White，1994) 曾 强调 这 种 统一 性 质 。 

8.3 豪 斯 曼 检 验 是 由 豪 斯 最 (Hausman，1978) 提 出 的 , 较 早 的 参考 文献 已 由 
8. 3 节 给 出 ,而 鲁 德 (Ruud，1984) 给 出 了 一 个 良好 的 综述 。 

8.4 由 格林 (Greene，2003)、 戴 维 森 和 寿 金 农 (Davidson and McKinnon， 
1993) ,以 及 伍德 里 奇 C(Wooldridge，2002) 所 撰写 的 书 ,都 阐述 了 许多 标准 的 设 定 
检验 。 

8.5 佩 院 兰 和 佩 陛 兰 (Pesaran and Pesaran，1993) 已 经 讨论 过 , 当 得 不 到 对 
数 似 然 的 期 望 解析 表达 式 时 , 考 克 斯 非 航 套 检 验 如 何 得 以 实施 。 也 可 使 用 仿 
(Vuong，1989) 检 验 。 

8.7 ”关于 非 线性 模型 的 模型 诊断 ,往往 通过 把 线性 回归 模型 的 结果 扩展 到 广 
义 线性 模型 辟 如 logit 与 油 松 模型 而 获得 。 卡 梅 化 和 特 里 维 迪 (Cameron and 
Trivedi，1998 ,第 5 章 ) 已 经 给 出 详细 讨论 和 相关 参考 文献 。 


习 题 


8-1 假定 y=xB8 十 u, 其 中 ,wu~ 和 NM[0,0], 参 数 向 量 6==[68’,o: ,并 且 密 度 
fly| 外 二 (1/ V2ro)exp[ 一 (y 一 x B)?/20 ]。 存 在 NN 个 独立 观测 值 的 样本 。 


4 设 定 检验 与 模型 选择 


和 


(a) 请 解释 矩 条 件 ELx(y 一 x B8);] 的 检验 为 什么 是 正 态 分 布 误差 假设 的 检验 

(b) 提供 式 (8. 5) 给 出 的 向 ; 与 和 的 表达 式 时 ,必须 实施 建立 在 (a) 部 分 条 件 矩 
基础 上 的 m 检验 。 

(c) 假定 dimLxj=10,N=100, 并 且 式 (8.5) 中 的 辅助 回归 会 产生 0. 2 的 非 中 
心 化 R? 。 你 在 水 平 0.05 上 ,会 得 出 什么 结论 呢 ? 

(d) 对 这 个 例子 ,给 出 申 怀 特 信息 托 阵 检验 所 进行 的 检验 和 矩 条 件 。 

8-2 考察 式 (8. 23) 给 出 的 PCGF 检验 的 多 项 式 形式 ,这 里 ,用 p= 二 NT!Xx 
;F(x;,9 ) 代 替 p;。 证 明 , PCGF 能 表示 成 式 (8. 27) 的 CGF,V= Diag[ N$p,].。 
(从 而 得 出 结论 :在 多 项 式 情况 下 , 安 得 鲁 斯 检验 统计 量 简化 为 皮尔 逊 统计 量 .) 

8 一 3 [改编 目 雨 官 (Amemiya，1985) 。] 对 于 8. 4. 1 节 给 出 的 豪 斯 曼 检 验 , 设 
Vi 一 V[b 上 » V22 =V[9 | 以 及 Vi =—Cov[0 ,0 ]。 

(a) 证 明 估 计量 6 = 十 [Vi 十 Vzs 一 2Vis] 1(6 ,0 ), 具 有 渐 近 方差 矩阵 
VLe |=V 一 LV — Vi | Vi 十 V22 一 2Vi2 上 [ V1 — Vizj。 

(b) 证 明 VL6 ] 在 矩阵 意义 下 小 于 VL6 ] ,除非 CovL8 ,6 ] 二 V[9 ]。 

(c) 现在 假定 6 是 完全 有 效 的 。V[6 ] 能 小 于 VL6 ] 吗 ? 你 会 得 出 什么 结论 呢 ? 

8-4 假定 两 个 模型 剖 是 非 藤 套 的 ,并 存在 六 =200 个 观测 值 。 对 第 一 个 模型 
来 说 ,参数 个 数 g 二 10 日 jnL 二 一 400。 对 第 二 个 模型 来 说 ,g 二 10 有 ln LL 二 一 380。 

(a) 哪 一 个 模型 有 利于 利用 AIC? 

(b) 哪 一 个 模型 有 利于 利用 BIC? 

(c) 厂 两 个 模型 确实 是 舱 套 的 , 且 在 水 平 0.05 上 使 用 似 然 比 检验 , 哪 一 个 模型 
受到 文 持 呢 ? 

8-S 使 用 16.6 他 的 健康 开销 支出 数据 。 模 型 是 DMED 的 probit 回归 , 即 
良好 健康 开销 支出 的 标示 变量 ,对 应 于 16. 6 节 第 二 段 中 列 出 的 17 个 回归 元 。 你 
应 该 求 出 表 16. 1 第 1 列 给 出 的 估计 值 。 

(a) 利用 豪 斯 曼 检 验 , 在 水 平 0.05 上 对 自 测 健康 标示 HLTHG、HLTHF 以 及 
HLTHP 的 联合 统计 显著 性 进行 检验 。( 若 用 软件 包 计 算 , 可 能 需要 某 种 额外 的 
编程 。) 

(b) 此 处 的 罕 斯 曼 检验 是 最 佳 检 验 吗 ? 

(c) 在 水 平 0. 05 上 ,信息 矩阵 检验 会 文 持 这 个 模型 的 约束 吗 ?( 这 将 需要 某 种 
额外 的 编程 。) 

(d) 根据 R&Es 、Rixp Rn 和 Ra 区 分 去 掉 HLTHG、HLTHF、HLTHP 的 模 
型 与 去 掉 IC IDP、LPI 的 模型 。 
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9.1 5| 论 


本 章 阐述 数据 分 析 方 法 ,与 前 几 章 方法 所 需 的 模型 设 定 相 比 ,本 章 方法 所 需 的 
模型 设 定 要 少 一 些 。 

我 们 以 非 参 数 估计 开始 。 关 于 数据 生成 过 程 ,这 里 做 出 非常 少 的 假设 。 一 个 
重要 例子 是 利用 核 密 度 估计 方法 对 连续 密度 进行 估计 。 这 因为 提供 了 比 熟知 的 直 
方 图 更 光滑 的 形式 而 引 人 注 目 。 第 二 个 重要 例子 是 ,对 纯 量 回归 元 进行 非 参 数 回 
归 , 诸 如 核 回 归 。 这 对 (zx,y) 散 点 图 设置 了 灵活 曲线 ,而 没有 用 曲线 形式 的 参数 约 
束 。 非 参数 估计 有 大 量 应 用 ,包括 数据 描述 、 对 来 自 回 归 模 型 的 数据 和 拟 合 残 差 进 
行 探 索性 分 析 , 以 及 对 由 蒙特 卡 罗 研 究 获得 的 参数 估计 进行 各 种 不 同 模拟 的 概括 。 

经 济 计量 分 析 强 调 , 纯 量 y 对 回归 元 向 量 x 进行 多 变量 回归 。 然 而 , 非 参 数 方 
法 尽管 在 理论 上 可 能 具有 无 限 大 样本 ,但 在 实际 应 用 中 却 不 尽 如 人 意 ,因为 这 需要 
在 几 个 方面 对 数据 加 以 分 切 , 从 而 导致 在 每 一 个 切片 中 具有 极 少 的 数据 。 

因此 ,经 济 计量 学 家 关注 于 半 参 数 方法 。 这 些 方法 把 非 参数 成 分 与 参数 成 分 
结合 起 来 ,从 而 大 大 减少 了 维 数 。 一 个 重要 应 用 是 ,允许 关于 条 件 均值 的 更 灵活 的 
模型 。 例 如 ,条件 均值 ELy| xj] 被 参数 化 为 单 指标 形式 gCxG), 其 中 ,不 用 对 g(…) 
函数 形式 设 定 , 却 可 用 非 参 数 形式 加 以 估计 ,未 知 参数 B 也 以 非 参 数 形式 进行 估 
计 。 另 一 个 应 用 是 , 当 出 现 错误 设 定 分 布 假设 会 导致 非 一 致 参数 估计 值 时 , 则 运用 
” 非 参 数 方法 对 那些 分 布 假设 进行 放松 。 例 如 , 当 y 数据 被 截取 或 删 失 时 (参见 第 
16 章 ) ,假如 没有 对 误差 项 特定 分 布 做 出 正确 设 定 ,我 们 希望 获得 线性 回归 模型 
y 二 XB 十 e 中 B 的 一 致 估计 值 。 

非 参 数 方法 的 渐 近 理论 不 同 于 大 部 分 参数 方法 的 那些 渐 近 理论 。 当 N 一 ce 
时 ,估计 可 通过 把 数据 分 切 成 甚至 更 小 的 切片 ,然后 在 每 一 个 切片 中 估计 局 部 特 
性 。 由 于 把 小 于 六 个 观测 值 用 于 估计 每 个 切片 ,所 以 收 伍 速度 慢 于 前 面 几 章 中 曾 
获得 的 收敛 速度 。 不 过 ,在 最 简单 情况 下 , 非 参 数 估计 仍旧 服从 渐 近 正 态 分 布 。 在 
一 些 半 参数 回归 的 重要 情况 下 ,参数 6 估计 量 拥 有 以 速度 N -2 收敛 的 通常 性 质 。 
因此 ,通过 标 度 VN 会 导致 极限 正 态 分 布 ,而 此 模型 的 非 参 数 成 分 却 以 较 慢 的 速度 
NN 收敛 ,其 中 ,r 二 1/2。 


.4 半 参 数 方法 


Re i 


由 于 非 参 数 方 法 是 局 部 平均 方法 ,对 局 部 的 不 同 选择 会 导致 各 种 不 同 的 有 限 
样本 结果 。 在 一 些 约束 情况 下 ,存在 一 些 规则 和 方法 来 确定 用 于 局 部 平均 的 带宽 
或 窗口 宽度 ,正如 存在 用 于 确定 给 定 观 测 值 个 数 时 直方 图 中 箱子 (bins) 个 数 的 规 
则 一 样 。 此 外 ,一 种 普遍 做 法 是 ,运用 非 科 学 方法 选取 带宽 , 即 画 出 看 起 来 合理 的 
光滑 图 ,就 能 够 获 捕 到 所 关注 关系 的 详情 。 

非 参数 方法 构成 本 章 主体 ,因为 非 参数 方法 既是 关注 的 内 在 内 容 , 也 是 进入 半 
参数 方法 的 基础 ,本 章 尤 其 要 阐述 离散 因 变 量 与 删 失 因 变 量 模型 。 这 里 强调 核 方 
法 ,原因 在 于 核 方法 阐述 相对 简单 ,同时 “声称 所 有 光滑 方法 在 渐 近 意义 下 ,本质 上 
等 价 于 核 光 滑 [ 哈 德尔 (Hirdle，1990, 第 11 页 )]。 

9. 2 节 提 供 非 参数 密度 估计 和 非 参 数 回 归 应 用 到 数据 上 的 一 些 例 子 。9. 3 节 
阐述 核 密度 估计 。 局 部 回归 在 9. 4 节 加 以 讨论 ,以 便 为 9.5 节 给 出 核 回 归 的 正式 
研究 提供 动因 。9. 6 节 阅 述 不 同 于 核 方法 的 非 参 数 回归 方法 。 半 参数 回归 的 大 部 
分 专题 则 在 9.7 节 引 和。 


9.2 非 参 数 例 子 :小 时 工资 


举 一 个 例子 ,我 们 考察 在 1993 年 工作 .年龄 为 36 岁 的 175 名 妇女 的 小 时 工资 
与 受 教育 情况 。 数 据 来 自 密 软 根 收入 动态 面板 调查 。 小 时 工资 的 分 布 是 向 右 偏 斜 
的 ,这 一 点 很 容易 建立 起 来 , 故 将 其 建 模 成 In wage, 即 小 时 工资 的 自然 对 数 。 

我 们 只 给 出 非 参 数 密度 估计 的 一 个 例子 和 非 参 数 回 归 的 一 个 例子 ,并 阐述 选 
择 带 宽 的 重要 作用 。 然 后 ,9. 3 市 给 出 基本 理论 。 


9.2.1 非 参数 密度 仿 计 


工资 自然 对 数 的 直方 图 ,如 图 9. 1 所 示 。 为 了 提供 详情 ,对 箱子 宽度 加 以 选 
取 , 以 使 存在 30 个 箱子 ,每 个 箱子 宽度 为 0. 20 左右 。 仅 加 175 个 观测 值 而 言 ,这 
是 异常 罕 的 ,但 对 较 大 箱子 宽度 而 言 , 则 会 损失 更 多 详细 信息 。 工 资 对 数 数据 似乎 
是 对 称 的 ,尽管 它们 可 能 稍微 问 左 信和 斜 。 


工资 对 数 直方 图 
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图 9.1 小 时 工资 自然 对 数 的 耳 方 图 。 数 据 来 自 美国 在 1993 年 工作 ,年龄 为 36 岁 的 175 名 妇女 。 
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标准 光滑 的 非 参 数 密度 估计 是 指 由 式 (9. 3) 定 义 的 核 密度 估计 。 此 处 ,我们 使 
用 表 9. 1 中 由 埃 帕 内 尼 科 夫 (Epanechnikoy) 定 义 的 核 。 


表 9.1 核 函 数 :普遍 使 用 的 例子 * 


核 和 和 卫 数 6 
一 致 (或 盒 形 或 矩形 ) X10zl<D 1. 351 0 
三 角形 的 (或 三 角形 ) (一 [zl)X1Cz|<1) 一 
埃 帕 内 尼 科 夫 的 (或 二 次 的 ) (lx) X11z|<1) 1.718 8 
四 次 的 (或 双 权 的 ) 1(1 一 她 )2 X1C|z|<1) 2. 036 2 
三 次 权重 的 2 X1lz|<D) 2. 312 2 
二 次 立方 的 (lz ) XI lz|<) 一 
高 斯 的 (或 正 态 的 ) (2r) !?exp(— xz:/2) 0.776 4 
四 阶 高 斯 的 方 (3 一 z)2(2z) ?exp(—2 /2) — 
四 阶 四 次 的 32(3—102 72') XI1(|zl < — 


a 和 常 值 8 由 式 (9. 11) 定 义 , 并 用 于 获得 由 式 (9. 13) 给 出 的 西 尔 弗 曼 搬入 估计 值 。 


具体 实施 时 ,其 根本 决策 是 选择 带宽 。 在 这 个 例子 中 , 式 (9. 13) 定 义 的 西 尔 弗 
曼 插 人 估计 会 产生 A= 王 0. 545 的 带宽 。 于 是 , 核 估 计 是 下 面 那 些 观 测 值 的 加 权 平 
均 , 即 在 当前 计算 点 上 对 数 工 资 的 0. 545517 单位 内 具有 对 数 工资 的 ,并 有 其 最 大 
权 数 被 设置 在 最 靠近 当前 计算 点 上 。 图 9. 2 给 出 带宽 分 别 为 0. 273 .0. 545 以 及 
1. 091 的 三 个 核 密 度 估 计 , 它 们 分 别 对 应 于 半 个 插入 一 个 插入 、2 倍 插入 的 插入 带 
宽 。 很 明显 ,最 小 带宽 表现 得 太 小 ,因为 它 会 导致 密度 估计 值 思 同 不 平 。 最 大 带宽 
使 得 数据 又 过 分 光滑 。 中 间 带 宽 即 插入 0. 545 值 , 看 起 来 是 一 个 最 佳 选择 。 它 给 
出 了 合理 的 光滑 密度 估计 值 。 

密度 估计 随 带宽 变化 
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图 9.2 利用 埃 帕 内 尼 科 夫 核 ,对 于 三 种 不 同 带宽 的 工资 对 数 的 核 密度 估计 。 


[C1] 原著 中 此 处 为 0.21, 但 应 为 0.545, 这 里 已 改 。 一 一 译 者 注 
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我 们 利用 这 个 核 密度 舍 计 会 做 些 什么 呢 ? 一 种 可 能 是 ,通过 附加 均值 等 于 样 
本 均值 且 方 差 等 于 样本 方差 的 正 态 密 度 ,将 该 密度 与 正 态 的 情况 加 以 对 比 。 虽 然 
图 形 没有 重新 轩 出 ,可 是 与 正 态 情况 相 比 , 此 处 却 揭示 出 具有 更 好 带宽 0. 545 的 核 
密度 舍 计 具有 更 加 尖锐 的 尖峰 。 第 二 种 可 能 性 是 ,比较 不 同 子 分 组 譬如 爱 教 育 程 
度 或 全 日 制 或 半日 制 工作 状况 时 的 核 密度 估计 。 


9.2.2 非 参 数 右 姓 


我 们 考察 工资 对 数 与 受 教育 之 间 的 关系 。 此 处 所 用 的 非 参 数 方法 是 洛斯 
(Lowess) 的 局 部 回归 方法 , 即 局 部 加 权 平 均 估 计量 [参见 式 (9. 16) 与 9.6. 2 节 ]。 

局 部 加 权 回 归 线 在 每 一 个 点 之 处 均 利 用 那 种 中 心 子 集 来 拟 合 ,该 中 心 子 集 
包括 最 接近 的 0. 8N 个 观测 值 ,这 是 一 种 默认 程序 ,其 中 ,NN 表示 样本 量 , 并 其 权 
重 则 随 距 离 x 越 远 而 下 降 。 对 于 靠近 端点 的 x 值 来 说 ,使 用 较 小 的 非 中 心 子 集 。 

图 9. 3 给 出 对 数 工 资 与 受 教育 的 散 点 图 ,以 及 市 宽 分 别 为 0.8.0.4 以 及 0.1 
的 洛斯 回归 有 曲线。 前 两 个 带宽 的 散 点 图 给 出 了 类 似 曲 线 。 其 关系 表现 出 二 次 形式 
的 ,但 这 或 许 是 一 种 推测 ,因为 在 受 教育 很 少 的 水 平 上 ,数据 相对 稀少 。 就 大 部 分 
数据 而 言 ,线性 关系 或 许 同 样 能 很 好 地 发 挥 作 用 。 为 了 简单 起 见 , 我 们 没有 闸 述 
95% 的 置信 区 间或 前 面 曾 提 供 的 市 宽 。 


目 参 数 回 归 随 带宽 变化 
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受 教育 年 数 


9.3 利用 洛斯 回 妇 ,三 种 不 同 带 宽 的 工资 对 数 对 受 教育 的 非 参 数 估 计 。 样 本 与 图 9. 1 的 
一 样 ， 


9.3 核 密度 合计 


比较 各 种 不 同 分 组 或 与 基准 密度 譬如 正 态 密 度 相 比较 时 , 非 参 数 密 度 估计 十 
分 有 用 。 与 直方 图 比较 , 非 参数 密度 估计 具有 提供 比较 光滑 密度 佑 计 的 优点 。 己 
直方 图 中 选取 箱子 个 数 相 似 , 其 重要 决策 是 选取 带宽 。 我 们 关注 于 标准 非 参 数 密 
度 估计 量 , 即 核 密度 估计 。 一 旦 得 出 核 密度 估计 的 详细 描述 , 则 与 回归 有 关 的 纺 采 
可 通过 运用 更 为 简单 的 密度 估计 米 得 到 。 
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9.3.1 直方 图 


直方 图 (histogram) 是 将 z 的 范围 分 割 成 相等 区 间 的 空间 ,并 计算 每 一 个 区 间 
上 的 样本 部 分 值 ,以 此 得 出 密度 估计 值 。 

我 们 给 出 更 正式 的 直方 图 表述 ,这 样 做 会 自然 地 推广 到 更 光滑 的 核 密 度 估计 
晤 上 。 考 察 纯 量 连 续 随机 变量 xz 在 x。 处 计算 的 密度 f(zxo) 的 估计 。 由 于 密度 是 
cdf F(zxo) 的 导数 [也 就 是 说 ,f(zxo) 一 dF(xo)/dxj, 故 有 : 


F(xoth)— F(xo—h) 


h—0 


2h 
_ |; Pr| zo 一 PP<<z<Czo 十 产 | 
h—0 2h 


对 于 样本 量 为 N 的 样本 (zi， i 二 1,… ,NN) 来 说 ,建议 利用 估计 量 ， 


、 z 
finsr (zo) = ES 1(xo—h< zi roth) (9. 1) 
N 二 2h 


其 中 ,指示 函数 “11(indicator function) 为 : 


1， 若 事件 A 发 生 
0， 其 他 


估计 量 finsr (zxo) 是 以 zo 为 中 心 .箱子 宽度 为 24 的 直方 图 估计 值 ,因为 它 等 于 位 
于 zo 一 h 与 zo 十 h 之 间 的 样本 部 分 值 被 箱子 宽度 24 去 除 。 当 fimsr 在 zx 范围 内 等 
分 空间 值 x 处 计算 时 , 即 每 一 个 为 24 单位 ,就 得 到 直方 图 。 

估计 量 finsr (xo) 利 用 等 权 方 式 给 出 zo 士 六 内 所 有 观测 值 , 即 把 式 (9. 1) 重 
写 为 : 


1(A) = 


N 
人 ] 1 A 
jc 一 记忆 去 x1(| 三 于 人 





一 1 ) (9. 2) 


即使 基本 密度 是 连续 的 ,这 导致 密度 估计 成 为 阶梯 函数 。 比 较 光 滑 的 佑 计 人 可 通 
过 利用 加 权 函 数 来 获得 ,而 不 是 此 处 选用 的 指示 函数 。 


9. 3.2 巷 黎 度 仿 太 重 


核 密度 估计 量 (kernel density estimator) 是 由 罗 森 布 拉 特 (Rosenblatt，1956 ) 
引进 的 ,通过 利用 可 选择 的 加 权 函 数 对 直方 图 估计 (9. 2) 进 行 推广 ,因此 : 


a ] N _ 
f(xo) = 2K( 全 ) (9. 3) 
;=] 


加 权 函 数 K(:) 称 为 核 函 数 (kernel function) ,并 且 满 足下 一 节 给 出 的 约束 。 人 参数 刀 
是 一 个 光滑 参数 , 称 为 带宽 (bandwidth) ,而 2 信 A 是 窗 宽 ?Ij(window width)。 与 


[C1] 又 称 为 示 性 函数 。 一 一 译 者 注 
[2] 又 称 为 窗 孔 宽度 。 一 一 译 者 注 
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用 于 建立 直方 图 的 z 值 范 围 相 比 ,密度 通过 在 更 广泛 的 zx 值 处 估计 f(xo) 而 得 
到 ;通常 ,计算 是 在 样本 值 zx ，…'zrw 处 进行 。 这 同样 有 助 于 提供 比 直方 图 更 光滑 
的 密度 估计 ，。 


9. 3.3 巷 邱 数 


核 限 数 天 (…) 是 一 个 连续 国 数 .关于 零点 对 称 , 同 时 其 积分 为 1 且 满 足 附 加 有 
界 性 条 件 。 沿 着 李 明 字 (M. ]. Lee，1996) 的 线索 ,我 们 假定 核 满足 下 述 条 件 . 
(1) K(z) 关 于 0 是 对 称 的 且 连 续 的 。 


(11) |K(w)dz 一 ]， | 二 Cd 一 0， 并 且 | | K(z) | cz 一 co。 


(111 ) 或 者 (a) 对 于 某 个 之 站 ， 当 | Iz| 守 之， ,由 K (zz) 一 0; 或 者 (b) 当 ] < ] 一 co 上 轩 , 则 
K(z)—0, 


(1V ) | KG) de 二 jk， 其 中 ,x 表示 常 值 。 


住 实际 应 用 中 , 核 函 数 满足 条 件 (iiia) 而 非 较 弱 条 件 (iiib) 时 , 核 蚂 数 就 会 很 好 
地 起 作用 。 然 后 ,为 了 方便 起 见 , 将 关注 范围 限制 在 [一 1,1j 而 不 是 [一 zo ,xzo], 这 
是 正规 化 ,而 且 通 常 将 KC(z) 限制 在 zE[ 一 1,1]。 

一 些 普 届 使 用 的 核 裔 数 已 列 于 表 9. 1 中 。 一 致 核 利用 相同 权 数 作为 直方 图 中 
的 箱子 锅 度 24, 只 是 它 所 产生 的 直方 图 是 利用 一 系列 zx 点 而 不 是 利用 固定 箱子 
来 计算 的 。 高 斯 核 满足 (iiib) 而 不 是 (iiia) ,因为 它 没有 限制 zE[ 一 1,1]。p 阶 核 是 
指 盲 次 非 零 矩 为 第 户 阶 的 核 。 前 7 个 核 都 二 阶 的 , 且 满 足 条 件 (ii) 中 的 第 二 个 条 
件 。 最 后 2 个 核 都 是 四 阶 核 。 如果 f(x) 是 多 于 二 次 可 微 的 ,那么 这 类 较 高 阶 核 
(higher order kemel 会 使 收敛 速率 增 大 (参见 9. 3. 10 节 ), 尽 管 它 们 可 取 到 人 负 值 。 表 
9. 1 给 出 由 式 (9. 11) 定 义 且 于 9. 3.6 节 运 用 的 参数 5, 对 某 些 核 而 言 ,有 助 于 带宽 
的 选择 。 

已 知 天 () 及 六 ,可 相当 简单 地 计算 估计 量 。 如 果 核 估计 量 在 距离 ze 值 7 处 计 
算 , 当 核 具有 无 界 支 持 时 ,那么 核 估 计量 的 计算 至 多 需要 Nr 次 运算 。 采 用 节省 时 
间 的 计算 方法 是 可 行 的 ;例如 ,参见 哈 德 尔 CHardle，1990, 第 35 页 )。 


9.3.4 贡 黎 度 例子 


对 之 宽 有 的 一 个 重要 选取 已 由 图 9. 2 阐述 。 

这 里 ,利用 图 9. 1 的 小 时 工资 对 数 来 前 述 核 的 选择 。5 13 

图 9. 4 显示 利用 各 种 不 同 核 的 效果 。 对 于 埃 帕 内 尼 科 夫 核 、 高 斯 核 、 四 次 核 和 
一 致 核 来 说 ,由 式 (9. 13) 给 出 的 西 尔 弗 曼 插值 估计 值 所 产生 的 带宽 分 别 是 0. 545、 
0. 246 .0. 246 以 及 0. 214。 甚 至 对 于 那些 可 产生 直方 图 的 一 致 核 来 说 ,所 得 到 的 核 
密度 佑 计 值 都 是 非常 相似 的 。 带 有 核 选择 的 密度 估计 变化 远 小 于 图 9. 2 显示 的 带 
有 不 同 带宽 选择 的 变化 。 


[1] 原著 中 该 段 内 容 为 Here we illustrate the choice of kernel using … ,应 该 将 using 及 其 后 面 的 本 段 
内 容 全 部 删 掉 。 此 处 译 者 对 该 句 做 了 更 正 。 译 者 注 
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随 核 变 密 度 估计 
0.6 A 








十 0.4 

二 一 一 一 埃 帕 内 尼 科 夫 的 (h= 0.545) 
| 高 斯 的 (h = 0.246 ) 

其 一 四 次 的 (h = 0.646 ) 


一 一 一 一 致 的 (h= 0.214) 


2 3 
小 时 工资 对 数 


图 9.4 利用 关于 带宽 的 西 尔 弗 曼 插值 估计 ,对 四 种 不 同 的 核 , 做 出 对 数 工 资 核 密度 估计 。 
数据 与 图 9. 1 的 相同 。 


39. 3.5 统计 推断 


假定 数据 是 iid 的 ,已 知 对 K(*) 与 的 选取 ,我 们 来 阐述 核 密度 估计 量 f(x) 
的 分 布 。 该 估计 值 f(x) 是 有 偏 的 。 如 果 当 N 一 co 时 , 带宽 h 一 0, 那 么 这 个 偏 倚 就 
渐 近 地 趋 于 0, 因 此 , f(z) 是 一 致 的 。 可 是 , 偏 倚 项 在 f(x) 的 渐 近 正 态 分 布 中 并 不 
一 定 会 消失 ,从 而 使 统计 推论 变 得 复杂 。 

均值 与 方差 

假定 f(z) 的 二 阶 导数 存在 且 是 有 界 的 , 同时 核 满足 |zK (z)dz 二 0, 如 同 


9. 3. 3 节 性 质 Gii) 所 假定 的 ,就 可 获得 9. 8. 节 中 f(xo) 的 均值 与 方差 。 
核 密度 估计 量 是 有 偏 的 ,其 偏 倚 项 (bias term)b(xo) 依赖 于 带宽 真实 密度 曲 
率 , 并 且 依 据 


plzo) = EF Fx0)]— fro) = Fh f(z )| 2 K(x) de (9. 4) 


所 使 用 的 核 。 核 密度 估计 量 偏 估量 是 Oh) 的 ,其 中 ,我 们 使 用 了 数量 阶 的 记号 ， 
即 如 果 a(h)/h* 是 有 限 的 ,那么 消 数 a(h) 是 OC ) 的 。 假 如 当 N 一 co 时 有 h 一 0， 
偏 倚 就 将 消失 。 

假定 A ~0 且 N 一 oo, 核 密度 估计 量 的 方差 (variance) 是 、 


VI F(x0)] = 二 (xzo)| KGz)2dz 上 +of (9 5) 


其 中 , 郴 数 a(h) 表 示 oCh), 当 a(h)/J* 一 0 时 。 该 方差 依赖 于 样本 量 、 真 实 密度 以 
及 核 。 当 Nh 一 ,方差 消失 ,这 就 要 求 当 h->0 时 ,方差 必须 以 比 N->oo 更 慢 的 速 
率 消失 ，。 

一 致 性 

核 估计 量 是 逐 点 一 致 的 (pointwise consistent) ,也 就 是 说 ,在 特定 点 x 二 xo 处 
是 一 致 的 ,如 果 侦 倚 销 失 且 方差 也 消失 。 这 正 是 当 六 >0 且 Nh 一 oo 时 的 情况 。 
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对 于 f(x) 在 xz 处 所 有 值 的 估计 来 说 , 较 强 的 一 致 收 纹 (uniform convergence) 
条 件 , 即 sup。 | f(xo) 一 f(zro)| > 0, 可 以 证 明 , 当 Nh/in N->ce 时 ,会 出 现 此 情况 。 
这 要 求 疡 比 逐 点 收敛 的 情况 要 大 一 些 。 

渐 近 正 态 性 

前 面 结果 表明 , f(xo) 渐 近 地 具 有 均值 f(xo) 十 b(xo) 和 方差 (Nh) 1f(xo) 义 


|KCz)?dz, 由 此 可 得 , 应 用 中 心 极限 定理 , 则 核 密度 估计 量具 有 极限 分 布 dimit 


distribution) : 
、 d 
VNA(f(lro)— f(xro) — bro)) TN| o,f )| KCz)? qe | (9. 6) 


所 应 用 的 中 心 极 限定 理 是 非 标准 的 , 且 需 要 条 件 (iv); 例如 ,参见 李 明 衬 (Lee， 
1996, 第 139 页 ) 或 帕 甘 和 乌拉 (Pagan and Ullah，1999, 第 40 页 )。 

重要 的 是 注意 到 ,由 式 (9. 4) 定 义 的 偏 倚天 (xzo) 存 在 。 就 市 宽 的 一 般 选 取 而 
言 ; 这 一 项 并 不 会 消失 , 却 使 置信 区 间 的 计算 变 得 复杂 (将 在 9. 3.7 市 阐述 )。 


9.3.6 带 第 选取 


选取 带宽 有 的 重要 性 远大 于 选取 核 肾 数 K(:) 的 重要 性 。 为 减少 偏 倚 而 令 天 
小 一 些 与 为 确保 光滑 而 令 有 hh 大 一 些 之 间 存 在 一 种 权衡 的 了 矛盾 关系 。 因 此 ,一 种 常 
规 测 量 是 均 方 误差 (mean-squared error，MSE) , 即 偏 倚 平 方 与 方差 之 和 。 

由 式 (9. 4) 知 , 偏 倩 是 OG) 的 ,而 申 式 (9.5) 知 ,方差 是 OCCNA) 1) 的 。 从 直 
观 上 看 ,通过 选取 有 以 使 MSE 极 小 化 ,因此 , 偏 倚 平方 与 方差 是 同 阶 的 ,所 以 hr 二 
(Nh) ', 这 其 中 蕴含 最 优 带 宽 h= 二 OCN™?) 与 VNh 一 OCN*+)。 现 在 ,我 们 给 出 
更 正式 的 研究 ,包含 h 的 实用 插值 估计 。 

均值 积分 平方 误差 

核 密度 估计 在 ze 处 的 效 采 局 部 (local) 调 量 是 : 


MSE[ f(xo) |=E[(fCxro)— f(ro))’] (9. 7) 


其 中 ,期 望 是 关于 密度 f(x) 的 。 册 于 MSE 等 于 方差 加 平方 偏 倚 , 所 以 由 式 (9. 4) 
与 式 (9. 5) 得 到 核 密度 估计 的 MSE: 


_ , 2 
MSE| f(xo) | 一 Df Cx0) | Kz)?de 十 人 (xz) | Kw dz) (9. 8) 


为 了 获得 在 所 有 ze 值 处 的 效果 全 局 (global) 测 量 , 我 们 通过 定义 平方 积分 误 
差 (integrated squared error, ISE) 


ISE(h) = | Go) — f(r0)) ?dro (9. 9) 


来 开始 ,在 离散 情况 下 ,对 所 有 z 的 平方 误差 进行 求 和 , 这 一 点 类 似 于 连续 情 涡 。 
这 可 写成 疡 的 函数 ,以 此 强调 对 带宽 的 依赖 性 。 然 后 ,我 们 除了 对 密度 fx) 取 ISE 
的 期 望 值 之 外 ,要 去 掉 f(zxo) 对 x 值 而 不 是 x。 的 依赖 性 。 从 而 ,得 出 均值 平方 积 
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一 


分 误差 (mean integrated squared error, MISE). 
MISE(h) = ELISEGCP) ] 
一 E| | Cro) f(xo) ?dro | 


和 |ELCf x) — f(x0)) Jdzo 


其 中 ,MSE[L f(zx)] 已 由 式 (9. 8) 定 义 。 由 前 面 的 代数 运算 知 ,MISE 等 于 积分 均 方 
误差 (integrated mean-squared error，IMSE ) 。 

最 优 带 宽 

最 优 带宽 是 求 MISE 极 小 值 。 对 MISE(h) 求 关于 的 导数 ,并 令 其 导数 为 0， 
得 到 最 优 带 宽 Coptimal bandwidth ) ， 


全 =6(|f’C) dro) NT (9. 10) 
其 中 ,6 依赖 于 所 用 的 核电 数 ,这 里 . 


|KC2)? de 


0 一 (9.11) 








(| =KCz)dz ) 


该 结果 归功 于 西 尔 弗 曼 (Silverman，1986)。 

正如 同一 致 性 所 需要 的 ,由 于 h* = 二 O(N 2?), 故 当 N 一 2 且 NA 一 
OCN%3) 一 co 时 ,h* ->oo。f(zo) 的 偏 倚 是 O01”*) 二 OCN 习 4), 当 N->co 时 它 会 消 
失 。 对 于 直方 图 估计 来 说 ,可 以 证 明 ,h* 二 OCN™0?) 和 有利 MISE(h*)= 一 OCN 一 5), 低 
于 核 密度 估计 的 MISE(h* ) 二 O(N 5)， 

最 优 带 宽 依赖 于 密度 的 曲率 , 当 f(z) 是 高 度 可 变 时 ,hh* 就 较 小 。 

最 优 核 

最 优 带 宽 会 随 核 而 变化 [参见 式 (9. 10) 与 式 (9. 11)] ,可 以 证 明 , 倘 若 各 种 不 同 
的 最 优 h* 用 于 不 同 的 核 ,MISE(h* ) 则 随 核 的 不 同 而 变动 很 小 (图 9. 4 提供 一 种 前 
述 )。 可 以 证 明 , 最 优 核 (optimal kernel) 是 埃 由 内 尼 科 夫 核 ,尽管 它 的 优点 显得 
很 少 。 

选取 谤 宽 的 重要 性 远大 于 选取 核 的 重要 性 ,同时 由 式 (9. 10) 知 ,这 会 随 不 同 核 

带宽 插入 估计 

价 宽 的 插 人 佑 计 (plug-in estimate) 是 的 一 个 简单 公式 ,这 里 ,A 依赖 于 样本 
量 N 以 及 样本 标准 差 ;、 | 

一 个 有 益 的 起 点 是 ,假定 数据 服从 正 态 分 布 。 于 是 ,| 了 (zo)*dro == 3/(8Vzw') = 
0.211 6/5 ,在 此 情况 下 , 式 (9. 10) 专门 化 为 : 


.Y 半 参 数 方法 


MM 


h*=].36436N "“s (9. 12) 


其 中 ,s 表示 x 的 样本 标准 差 , 而 就 几 种 核 而 言 ,6 已 列 于 表 9. 1 中 。 对 于 埃 帕 内 尼 
科 夫 核 来 说 ,h" 二 2. 345N "?s, 而 对 于 高 斯 核 来 说 ,h* 一 1.059N 25。 就 正 态 核 
而 言 , 会 出 现 相 当 小 的 带宽 ,因为 与 大 多 数 核 不 同 , 当 |zx; 一 zo | 之 hh 时, 正 态 核 会 对 
Zi 给 出 某 种 权 数 。 在 实际 应 用 中 ,人 们 利用 西 尔 弗 曼 插值 估计 (Silverman’s plug-in 


estimate). 
h* =1.36436N “min(s, 19r/1. 349) 《9. 13) 


其 中 ,igr 表示 四 分 位 数 间距 。 这 使 用 igr/1. 349 作为 ec 的 一 种 可 选择 估计 ,以 此 预 
防 异 稼 值 (outliers) ,而 这 会 使 ; 增 大 ,从 而 导致 h 非常 大 ， 

在 实际 应 用 中 ,h 的 这 些 插 入 估计 会 很 好 地 发 挥 作用 ,尤其 是 对 于 对 称 单 峰 密 
度 ,即使 f(x) 不 是 正 态 密度 。 不 过 ,人 们 还 应 通过 利用 各 种 变形 来 加 以 验证 , 壁 如 
2 倍 插 入 估计 与 半 个 插入 估计 。 : 

例如 ,在 图 9.2 和 图 9.4 中 ,我 们 有 177-"?* 二 0. 355 1, s 二 0. 828 2, igr/1. 349 一 
0. 645 9, 因 此 ,由 式 (9. 13) 得 到 ,h* 二 0. 317 36。 例 如 ,对 埃 帆 内 尼 科 夫 核 而 言 ,得 
到 有 ”二 0. 545, 因 为 由 表 9.1 知 ,6 二 1.718 8。 

交叉 验证 (cross-validation) 


由 式 (9.9) 知 ,ISECh) 二 [fro az 一 ?| Fro) frojdro 十 | 户 (zo)dro。 第 三 
项 不 依赖 于 ,一 种 可 供 选 择 的 数据 驱动 方法 是 ,通过 


l i 坎 ) SA 
CV(h) = Nh 2 SK® (Ne (9. 14) 





来 估计 ISE(h) 的 前 两 项 ,其 中 ,KY (x) 一 | Ke 一 DKCOd 表示 天 对 目 身 的 卷 积 ， 


而 广 (zi) 表示 f(x;) 去 掉 一 个 核 估 计量 。 参 见 李 明 宁 (Lee,1996 ,第 137 页 ) 或 帕 
甘 和 乌拉 (Pagan and Ullah,1999 ,第 51 页 ) 的 推导 。 交 叉 验 证 估计 (Cecross-validation 


estimate) hey 是 求 GV(4) 极 小 值 。 可 以 证 明 , 当 NN -> coo,hev 仿 h” 时 ,其 收 伍 速 度 
非常 慢 ， 

从 计算 上 看 , 求 hv 显得 很 麻烦 ,因为 SE(h) 需 要 在 hh 值 的 范围 内 加 以 计算 。 
人 们 时 常 不 必 去 交叉 验证 核 密 度 估计 ,因为 插值 估计 通常 提供 了 一 个 良好 的 起 点 。 


9.3.7 车 信 区 向 


在 没有 置信 区 间 时 ,通常 要 阐述 核 密度 估 计 , 但 构造 天 于 f(xo) 的 隶 点 置信 区 
则 是 可 能 的 , 逐 点 意 指 在 特定 的 z 值 处 进行 计算 。 一 种 条 单方 法 (procedure， 又 
称 为 程序 ) 是 ,在 计算 点 xo 的 一 个 很 小 的 数 辟 如 10 上 获得 置信 和 区间, 这 恰好 是 x 
范围 上 的 分 布 ,并 将 它 与 估计 密度 曲线 一 起 绘制 成 图 。 

由 结果 (9. 6) 可 得 到 f(xo) 的 95% 置 信和 区 间 (confidence interval): 


Fn € Fz) — br) + 1.96x fro) | Ke)’ de 
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就 大 多 数 核 而 言 ,很 容易 通过 解析 方法 得 到 | K(z)?*dz。 

由 于 存在 偏 倚 项 ,情况 变 得 很 复杂 ,这 不 应 在 有 限 样 本 下 被 忽略 掉 , 尽 管 在 渐 
近 形 式 上 5b(xo) 人 0 。 这 是 因为 含有 最 优 带 宽 h" 二 OCN?), 由 式 (9. 6) 给 出 的 
重新 标 度 随机 变量 (VNh(f(Czxo) 一 f(zxo)) 的 偏 倚 并 没有 消失 ,由 于 VNAh" 乘 以 
Oh* ) 二 O01), 由 式 (9. 4) 与 f(xo) 的 核 和 估计 能 估计 出 该 偏 倚 , 可 是 在 实际 应 用 
中 ,估计 /”(zo) 就 显得 繁琐 。 相 反 , 通 常 方 法 是 减少 计算 置信 区 间 的 偏 倚 而 不 是 
f(zo) 自 身 ,这 里 要 通过 光滑 不 足 来 完成 , 即 选取 < 二 h* ,因而 h* 二 oC(N-**)。 另 


外 一 些 方 法 包括 ,利用 较 高 阶 核 ,例如 由 表 9. 1 给 出 的 四 阶 核 或 自助 法 (参见 
11. 6.5 市 )。 


同样 地 ,人 们 能 对 z 的 所 有 可 能 值 计 算 f(x) 的 属 信 带 。 与 每 个 zo 值 的 逐 点 
置信 区 间 相 比 , 这 些 置信 带 要 宽 一 些 。 


9. 3.8 黎 度 导数 的 估计 


在 一 些 情况 下 ,需要 对 密度 导数 (derivatives) 进行 估计 。 例 如 ,对 式 (9. 4) 给 出 
的 f(zo) 的 偏 倚 项 进行 估计 时 ,要 求 估 计 f” (zxo)。 

为 了 简单 起 见 , 我 们 阐述 一 阶 导 数 的 估计 。 有 限 差分 方法 是 使 用 f (xo) = 
[f(zo 十 A) 一 f(xo 一 A)]/2A 。 而 微分 方法 则 求 式 (9. 3) 中 f(z) 的 一 阶 导数 ,得 
到 广 (zo) 一 一 (NR2) DR’ (x;—zro0)/h), 

从 直观 上 讲 , 较 大 带宽 应 该 用 于 估计 导数 ,这 比 f(zxo) 更 易 变 化 。f? (ro ) 的 
偶 倚 如 前 所 述 , 只 是 方差 收敛 更 慢 一 些 , 如 果 f(zxo) 是 pp 次 可 微 的 ,那么 会 得 到 最 
优 带宽 六 一 OCN 0 )。 对 于 一 阶 导 数 核 估计 来 说 ,我 们 需要 p 宇 3 。 


9.3.9 多 变量 核 密 度 信 计 


前 面 的 讨论 已 经 考察 纯 量 x 的 核 密 度 人 估计。 对 于 & 维 随机 变量 x 的 密度 来 
说 ,多 元 核 密度 佑 计量 (multivariate kernel density estimator) 是 : 


2 1 ~ 兴 ; 区/ 

f(x0) 一 NK ) 
其 中 ,K(。，) 现 在 表示 上 & 维 核 。 通常 KC:) 表 示 积 核 (product kernel), 即 一 维 核 乘 
积 。 也 可 以 使 用 多 变量 核 , 璧 如 多 元 正 态 密度 或 者 与 氏 (z z) 成 比例 的 球 核 。 核 


K(。) 满 足 的 性 质 类 似 于 一 维 情况 下 得 到 的 一 些 性 质 ; 参见 李 明 守 (Lee，1996, 第 
125 贝 )。 


其 解析 结果 与 表达 式 均 类 似 于 前 面 一 维 的 情况 ,只 是 fw) 的 方差 以 速率 
OCNA ) 下 降 , 对 于 &>I 来 说 ,这 比 一 维 情况 要 慢 一 些 。 于 是 有 : 
VNRECFCx0) — fx0) — bxo)) ~ N|0, fx) | Kr)’dz | 
最 优 带 宽 选 择 是 A= 二 OCN -V+9), 这 比 一 维 情况 下 OCN-*?) 的 要 大 一 些 ,并 蕴含 
Nh* 二 OCN*”*%**4)。 择 值 方法 与 交叉 验证 方法 能 推广 到 多 变量 情况 。 就 正 态 积 





Mi 


核 而 言 ,x 的 第 7 个 分 量 的 斯 科 特 插值 (Scott’s plug-in) 估 计 是 h; 二 N41+9s ,其 
中 9 1/ 表示 i 的 样本 标准 差 。 

对 于 多 元 变量 核 来 说 ,更 可 能 产生 数据 的 稀 朴 性 ksparseness) 问题 。 当 x 具有 
较 高 维 数 时 ,由 于 x 附近 的 少数 几 个 观测 值 接收 到 大 量 的 权 数 , 故 存在 维 数 祸根 。 
其 至 这 并 不 是 一 个 问题 ,绘制 二 元 核 密度 估计 还 需要 三 维 曲 线 图 ,而 这 种 曲线 图 很 
难 被 人们 看 懂 与 解释 。 

多 元 变量 核 密度 估计 的 一 种 使 用 是 ,人 允许 对 条 件 密 度 进行 估计 。 由 于 Fy|z) 王 
f(x,y)/ 了 (xX), 所 以 一 种 明显 的 估计 量 是 , f(y|zx)= 二 f(x,y)/f 了 (x), 其 中 , f(x,yy) 
与 f(x) 分 别 是 二 变量 与 单 变量 的 核 密度 估计 值 。 


9. 3. 10 较 高 阶 核 


前 面 分 析 假 定 f(x) 是 二 次 可 微 的 ,这 是 获得 式 (9.4) 中 偏 倚 项 所 必需 的 假设 。 
右 f(z) 是 多 于 二 次 可 微 的 , 则 利用 较 高 阶 核 (参见 9. 3. 3 节 中 相 阶 核 的 例子 ) 可 减 
少 仿 和 倚 阶 数 , 从 而 使 h' 较 小 且 有 较 快 的 收 钙 速率。 一 般 陈 述 是 ,如 果 x 是 上 & 维 的 
且 f(x%) 是 pp 次 可 微 的 ,同时 使 用 第 p 阶 核 , 那 么 f(x) 的 核 和 估计 f(xo) 具 有 最 优 收 
合 速 率 NP/(2p+%) ,其 中 ,hh” —OCN V2pth) ) 


9.3.11 本 人 选择 的 非 参数 答 度 信和 计 


核 密度 估计 是 一 种 标准 的 非 参 数 估 计 。 例 如 , 帕 甘 和 乌拉 (Pagan and Ullah,， 
1999) 曾 曾 述 其 他 的 密度 估计 。 密 度 估 计 经 常 使 用 诸如 最 近邻 方法 ,该 方法 更 普遍 
用 于 非 参 数 回 归 之 中 ,并 在 9. 6 节 加 以 简略 阐述 。 


9.4 非 参 数 局 部 回归 


我 们 考察 纯 量 因 变 量 > 对 纯 量 回归 元 变量 x 的 回归 。 该 回归 模型 是 : 


yi 一 ICTi) 十 sij， 1 一 1 人 


其 复 洒 性 在 于 函数 形式 m(， ) 没 有 被 设 定 , 因 此 , 非 线 性 最 二 小 习 法 估计 不 可 行 。 

本 节 提 供 一 种 简单 利用 局 部 加 权 平 均 (local weighted average) 对 非 参 数 回 归 
(nonparametric regression) 做 出 的 一 般 性 研究 。 对 核 回 归 的 专门 研究 ,将 在 9. 5 市 
给 出 ,而 其 他 普遍 使 用 的 局 部 加 权 方 法 则 在 9. 6 节 中 加 以 前述 。 


9.4.1 局 部 加 权 平 均 


假定 对 于 回归 元 的 单个 值 辟 如 xo,y 存在 多 重 观 测 值 ,比如 说 > 有 Ne 个 观测 
值 。 于 是 ,m(xo) 的 一 个 明显 而 简单 的 估计 量 是 ,对 y 的 这 些 No 个 值 进行 简单 平 
均 ,我 们 将 其 记 为 充 (zxo)。 由 此 可 得 , 讽 (zxo) 一 [m(zxo) Nj!ej, 由 于 它 是 No 个 观 
测 值 的 平均 ,由 式 (9.15) 可 知 , 反 (zo) 是 iid 的 , 且 均 值 为 m(zxo) .方差 为 只 。 

佑 计量 元 (zo ) 是 无 偏 的 ,但 不 一 定 是 一 致 的 。 一 致 性 要 求 , 当 N->co 时 有 


(9. 15) 


No 一 oo, 因此 VL 元 (xo) 一 0。 就 离散 回归 元 而 言 ,在 有 限 样本 下 ,该 估计 量 非 常 繁 
琐 , 因 为 No 可 以 是 很 小 的 。 其 至 更 糟 的 是 ,就 连续 回归 元 而 言 ,对 x; 取 特 殊 值 .r， 
的 情 讽 来 说 ;其 至 当 N 一 co 时 ,仅仅 存在 一 个 观测 值 。 

除 z 确实 等 于 ze 以 外 , 当 工 接近 于 x。 时 ,数据 的 稀 朴 性 问题 可 通过 对 y 的 观 
测 值 进行 平均 加 以 克服 。 我 们 注意 到 ,估计 量 志 (zx) 能 表示 成 因 变 量 的 加 权 平 均 ， 
即 zi( xo ) = DW io ;其 中 , 当 Xi 二 Xo 时 , 权 数 wo 等 于 1/No ,而 当 Xx; 闫 0 时 , 权 数 
等 于 0。 因 此 , 权 数 既 随 计算 点 ze 变化 ,又 随 何 归 元 的 样本 值 变化 。 

更 一 般 地 讲 ,我 们 考察 局 部 加 权 平 均 估 计量 (local weighted average estimator ) : 


N 
mm (Xo) 一 er0 《9. 16) 
:=|1 
其 中 , 权 数 : 


wo = w(x; To 1h) 

之 和 为 1 ,所 以 > 和 win 一 1。 对 权 数 设 定 为 , 当 越 接 近 zo 时 ,其 值 越 大 。 

男 一 个 参数 为 窗口 宽度 参数 [11(window width parameter) 的 一 般 性 符号 。 
对 它 的 定义 是 , 愈 小 的 有 值 导 致 窗口 愈 小 ,并 且 对 x; 接近 于 ze 的 那些 观测 值 , 则 
妈 定 更 大 权 数 。 在 特定 核 回 归 例 子 中 ,表示 带宽 。9. 6 节 给 出 的 其 他 一 些 方法 具 
有 可 供 选 择 的 光滑 参数 (smoothing parameters) ,光滑 参数 起 着 类 似 于 hh 的 作用 。 
当 让 小 时 ,区 (xo) 变 得 稍 计 有些 偏 们 ,因为 仅 有 接近 z 的 观测 值 才 能 被 使 用 , 却 
更 容 多 变化 ,其 原因 在 于 使 用 很 少 的 观测 值 。 

线性 回归 模型 的 普通 最 小 二 乘 预 测 式 是 y; 的 加 权 平 均 , 因 为 经 过 一 些 代 数 运 
算 ,可 以 得 到 : 

roLs (To) 一 2 (N+ 3 i | 

可 是 ,例如 当 xz;zxo 放 时 ,普通 最 小 二 乘 权 数 实际 上 会 随 着 z 与 x; 之 间距 离 增 
大 而 递增 。 相 反 ,局 部 回归 (local regression) 则 使 用 随 |x; 一 xo| 而 递减 的 权 数 。 


9.4. 2 天 最 近邻 例子 


我 们 考察 一 个 简单 例子 ,对 应 于 最 接近 于 工 且 小 于 xzo 的 (4 一 1)/2 个 观测 值 
与 最 接近 于 工 且 大 于 ze 的 (一 1)/2 个 观测 值 的 y 值 进行 未 加 权 平 均 。 
通过 增 大 z 值 的 方式 ,对 观测 值 排 序 。 然 后 ,在 zo 二 x; 处 加 以 计算 ,得 到 : 


、 } 
mm. (Xi) EE (yi 一 CD72 十 十 1)/2 ) 


其 中 ,为 了 简单 起 见 ,& 表示 奇数 ,并 通过 一 些 联系 进行 潜在 修改 , 间 时 忽略 接近 于 
端点 zi 或 xn 的 zo 之 值 。 该 估计 量 可 被 表述 成 式 (9. 16) 的 一 种 特殊 情况 ,其 权 
数 为 ; 

ro 一 去 XI 人 01 一 ， XT TN 


[1] 义 称 为 窗 宽 参数 。 一 一 译 者 注 
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这 个 估计 量 有 许多 称谓 。 我 们 把 它 称 为 (对 称 的 )& 最 近邻 估计 量 (k-nearest 
neighbors estimator， 记 为 &-NN), 它 已 在 9. 6. 1 和 定义 。 它 也 可 以 是 一 种 以 mm 
为 中 心 、 长 度 为 上 的 局 部 进行 平均 (local running average), 或 求 均 值 Crunning 
mean) ,或 求 移动 平均 (meoving average)。 例 如 ,绘制 时 间 序 列 y 与 时 间 z 的 曲线 
图 。 参 数 起 着 9. 4. 1 节 中 和 窗口 宽度 有 的 作用 ,小 & 对 应 于 小 有。 

举 一 个 例子 前 述 ,考察 源 上 自 模 型 : 


y; 二 150 十 6. 5x; 一 0. 15x; 十 0. 001x;7 十 e;， 1 二 1,…,100 (9. 17) 
;一 ; 
e,~AM|O0,25°| 

的 生成 数据 。y 的 均值 关于 x 是 二 次 的 ,x 取 值 为 1,2,…,100, 其 转 问 点 在 x 二 20 


与 x 二 80 处 。 为 此 ,要 增加 服从 正 态 分 布 的 误差 项 ,其 标准 差 为 25。 

图 9. 5 绘制 出 满足 & 二 5 及 25 的 对 称 &- NN 佑 计量。 这 两 种 移动 平均 者 建 
议 三 次 关系 。 第 二 个 比 第 一 个 更 光滑 一 些 , 但 仍 是 相当 凸 刀 不 平 ,尽管 样本 的 1/4 
已 用 于 形成 平均 值 。 普 通 最 小 二 习 回 归 线 也 面 在 此 图 中 ，。 


最 近邻 回归 随 k 变化 





[Hi x 
9.5 对 上 的 两 种 不 同 选取 , 画 出 上 最 近邻 回归 出 线 与 OILS 回归 线 。 数 据 是 由 二 次 多 项 式 
模型 生成 的 。 


当 & 二 25 而 不 是 =5 时 ,7 《x) 在 端点 外 的 斜率 更 为 平坦 一 些 。 这 就 阐明 了 
在 端点 处 估计 mkCz) 时 会 出 现 边 界 问题 (boundary problem)。 例 如 ,对 于 最 小 回归 
元 值 zi 来 说 ,不 存在 包括 x 的 下 方 观测 值 , 而 平均 则 变 成 一 个 单 侧 平均 因 (x1) 二 
(yi 十 十 HG-D72 )/| CR 二 1)72 |。 就 这 些 数据 而 言 ;由 于 mx (x) 在 该 区 域内 关于 
Zz 是 递增 的 ,所 以 导致 遍 ,(X1) 被 过 高 估计 ,而 过 分 仿 大 关于 上 是 圳 增 的 。 相 反 , 这 
类 边界 问题 可 通过 利用 9. 6.2 节 给 出 的 方法 加 以 减少 。 


9.4.3 海 斯 回归 例子 


一 旦 将 可 供 选 择 的 权 数 用 到 那些 建立 对 称 化 的 &- NN 佑 计量 上 , 融 能 得 出 更 
好 的 m(z) 估 计 值 。 

一 个 例子 是 9. 6.2 节 定 义 的 洛斯 估计 量 (Lowess estimator)。 它 提供 了 m(x) 
的 一 个 较 光滑 估计 ,因为 它 使 用 核 权 数 而 不 是 指示 函数 ,类 似 于 核 密度 估计 , 比 实 
施 直 方 图 更 为 光滑 些 。 它 还 具有 较 小 的 偏 倚 (参见 9. 6. 2 市 ), 这 特别 有 利于 在 疝 
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点 处 估计 m(x)。 

对 于 由 式 (9. 17) 生 成 的 数据 来 说 ,图 9. 6 绘制 出 满足 & 王 25 的 洛斯 估计 值 。 
这 种 局 部 回归 估计 相当 于 接近 真实 三 次 条 件 均 值 函 数 ,该 三 次 条 件 均 值 函 数 也 被 
绘制 出 来 。 一 旦 将 图 9. 6 与 & 三 25 的 对 称 化 &- NN 的 图 9%. 5 进行 比较 ,可 以 看 
到 ,洛斯 回归 产生 了 更 光滑 的 回归 函数 估计 以 及 在 边界 处 更 准确 的 估计 。 


洛斯 非 参 数 回归 





0 20 40 OO 80 100 
[ol x 


9.6 利用 洛斯 曲线 及 三 次 回归 出 线 的 非 参 数 回归 曲线 。 数 据 生成 过 程 与 图 9. 5 的 一 样 。 


9.4.4 统 厅 推断 


当 误差 项 服从 正 态 分 布 ， 并 且 分 析 是 | ls" A 为 条 件 时 ， 很 容 久 获得 去 
(9. 16) 中 六 (zo) 的 准确 小 样本 分 布 。 一 旦 把 y; 王 m(zi) 十 e; 代入 区 (xo) 的 定义 中 ， 
就 会 直接 得 到 ， ， 、 
mro) 一 2 wionm (Xi) -一 2 Wiowne: 
对 于 固定 回归 元 且 如 果 e; 服从 iid NL0, ao] ,这 草 含 : 
N N 
mi (To) ~ N | > wiosm (Xi), os 2 wo | (9.18) 


注意 到 ,通常 所 (xo) 是 有 人 篇 的 , 且 其 分 布 不 一 定 以 mzo) 为 中 心 。 
如 果 拥 有 随机 回归 元 和 非 正 态 误 差 ,我 们 以 x;，… ,zn 为 条 件 , 并 应 用 U 统计 
量 的 中 心 极限 定理 ,U 统计 量 是 适合 双重 求 和 的 [例如 ,参见 帕 甘 和 马 拉 (Pagan 
and Ullah,1999 ,第 359 页 )]。 于 是 ,对 于 &; 服从 iid L0, 于 | ,有 : 
eCN) > toue 人 No olimcGON2 Sw, | (9. 19) 


其 中 ,cCN) 表 示 样 本 量 的 图 数 ,满足 OcCN) 二 N'Y? OcCN) 随 局 部 估计 量 而 变化 。 


例如 ,关于 核 回归 ,c(N) 二 Vv Nh ,而 对 于 具有 最 优 带宽 的 核 回 归 ,cCN)= 一 N*‘。 从 
而 有 L ] 。 


N 
CAN ORO) — mro) br0)) 全 NTo, elime(N)’ yc | (9.20) 
;=1 


[C1] 该 式 中 xo) 前 面 原文 为 “一 ”, 但 应 为 “十 ”一 一 译 者 注 
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其 中 ,Cx0) 二 mzo) 一 这 jiwionm (x;)。 注 意 到 ,由 式 (9. 20) 得 出 闹 (Czo) 的 渐 近 分 布 
(9. 18) 。 

很 明显 ,六 (xzo ) 的 分 布 , 即 简 单 加 权 平 均 , 能 在 可 供 选 择 的 分 布 假设 下 获得 。 
例如 ,就 异 方差 误差 (heteroskedastic errors) 而 言 , 式 (9. 19) 与 式 (9. 20) 中 的 方差 可 
用 lim c(N)?207 wio.s 来 代替 ,这 能 通过 用 平方 残 差 (y; 一 六 (zx;))? 代替 5 ,而 得 到 
一 致 估计 。 一 种 可 供 选 择 的 方式 是 ,人 们 能 够 运用 自助 法 (参见 11. 6. 5 节 )。 


9.4.5 议 取 带 第 


本 章 我 们 沿 着 非 参 数 技术 路 线 , 即 如 果 0 二 9 十 O, CN 下 ") ,那么 9, 的 估计 量具 有 
收 敏 速率 (convergence rate)N ,因此 , N'(0 一 66) 二 0O,(1) ,而且 原 则 上 NO 一 9) 


具有 极限 分 布 。 注 意 ,尤其 是 被 广泛 称 为 vN 一 致 佑 计量 的 那 种 估计 量 以 速率 
N- 了 收敛 。 与 该 估计 量 相 比 , 非 参数 估计 量 典 型 地 表现 出 较 慢 的 收 征 速率 , 即 ”一 
1/2, 因 为 需要 用 小 的 带宽 消除 偏 从 ,从 而 可 用 少 于 Nv 个 观测 值 估 计 7 (xo)。 

举 一 个 例子 ,考察 9. 4.2 刷 的 &- NN 例子 。 假 定 & 一 N ,因而 当 六 一 1 000 
时 ,& 王 251。 于 是 ,此 估计 量 是 一 致 的 ,由 于 移动 平均 使 用 了 样本 的 N/AN = 
和 个 观测 值 , 所 以 当 N 一 co 时 ,在 z 附近 失效 。 一 旦 利用 式 (9. 18) ,移动 平均 
估计 量 的 方差 是 有 Dw ,一 oz XkX 0/k)?: 二 2 XX1/k 二 22N ,所 以 式 (9. 19) 中 
的 cAN) 二 Vk 二 VN 二 N%4, 小 于 N。 人 倘若 有 二 OCN), 则 上 & 的 其 他 值 同 样 能 够 
保证 一 致 性 。 

更 一 般 地 讲 ,一 系列 带宽 参数 的 值 都 会 消除 渐 近 偶 倚 ,但 较 小 市 宽 会 增加 可 恋 
性 。 在 这 方面 文献 中 ,对 这 种 权衡 可 通过 对 均 方 误差 求 极 小 值 . 方 差 之 和 以 及 偏 倚 
平方 来 解释 。 

斯 通 (Stone，1980) 已 经 证 明 , 当 x 是 & 维 的 ,同时 mm(x) 是 p 次 可 微 的 , 则 
m(x) 的 第 * 阶 导数 非 参 数 估计 量 的 可 能 最 快 收 合 速率 是 N ,其 中 ,r 二 (pp 一 5)/ 
(28 十 &) 。 该 速率 随 着 导数 阶 数 增 大 且 x 维 数 增加 而 递减 。 这 个 速率 会 随 着 假定 
m(X) 可 微 次 数 的 增 大 而 递增 ,如 果 m2(x) 具 有 趋 于 无 穷 次 阶 数 的 导数 ,那么 它 趋 于 
NI 。 对 于 m(x) 的 纯 量 回归 估计 来 说 ,一 种 习惯 做 法 是 ,假定 mw (x) 存 在 ,在 此 情 

况 下 ,r 二 2/5 且 最 快 收 全 速率 为 N “”“， 


9.5 核 回 归 


核 回 归 是 利用 核 权 数 的 一 种 加 权 平 均 估 计量 。 一 些 问 题 璧 如 对 核 密 度 估 计 所 
阐述 的 偏 倚 及 带宽 选取 同样 与 核 回 上 有关 。 不 过 ,与 回归 情况 相 比 ,对 市 宽 选 取 的 
关注 显然 不 足 。 同 样 地 ,尽管 我 们 为 了 教学 原因 而 闸 述 核 回归 ,但 在 实际 应 用 时 经 
常 使 用 非 核 局 部 回归 佑 计量“ 2 (参见 9. 6 市 )。 


[1] 原著 此 处 为 “ 核 局 部 回归 估计 量 ”, 但 应 该 为 “ 非 核 局 部 回归 估计 量 ", 这 里 译 者 已 做 了 相应 改 
动 。 一 一 境 者 注 
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9. 5.1 核 品 归 信 计 


核 回归 的 目的 是 要 估计 由 式 (9. 15) 定 义 的 模型 y 二 m(x) 十 e 里 面 的 回归 函数 
m(x)。 由 9.4. 1 市 知 ,m(zo) 的 一 个 明显 估计 量 是 ,对 应 于 接近 zo 的 zx; 的 因 变 量 
的 梓 本 值 y; 的 平均 值 。 在 此 之 上 的 一 种 变形 是 , 求 出 关于 距离 ze 为 疡 之 内 的 
所 有 观测 值 的 y; 的 平均 值 。 这 正式 地 表述 成 : 


~ 1( 
mm (ro) 三 ~ h 
> 人 


其 中 ,如 前 所 述 , 当 事 件 A 发 生 ,1(4)=1, 否 则 104) 王 0。 分 子 对 y 值 求 和 ,而 分 
母 则 给 出 求 和 时 > 值 的 个 数 。 

这 种 表达 式 对 接近 zx。 的 所 有 观测 值 给 出 了 相等 权 数 , 但 一 种 可 能 更 为 受 欢 迎 
的 方法 是 ,在 x。 处 给 出 最 大 权 数 而 远离 ze 的 权 数 则 递减 。 因 而 ,更 一 般 地 讲 , 我 
们 考察 9. 3. 2 节 引 入 的 核 加 权 顺 数 K(.)。 这 就 得 到 核 回 归 估 计量 (kernel regres- 


sion estimator) ， 








一 1jy 





Xi 一 0 
h 





<1) 


] i 
霹 DK(SF)y 
(X00) 二 一 一 一 一 一 一 一 一 一 (9. 21) 


几 种 通用 核 回 归 , 比 如 一 致 核 回 归 、 高 斯 核 回 归 、 埃 帕 内 尼 科 夫 核 回归 以 及 二 次 核 
回归 , 均 列 在 表 9. 1 中 。 

常数 称 为 带宽 (bandwidth) ,并 将 2 称 为 窗口 宽度 (window width)。 带 宽 所 
起 的 作用 与 9.4.2 节 有 &-NN 例子 中 & 的 作用 一 样 。 

估计 量 (9. 21) 是 由 纳 达 雷 娅 (Nadaraya，1964) 与 沃 森 (Watson，1964) 提出 


的 ,他 们 给 出 了 一 种 可 供 选 择 的 推导 。 和 条件 均值 m(x) = |yf Gla)dy 一 


[omV/7Gn]dy, 这 能 由 商 Cm) = |>[7z)/7a]dy 估计 出 来 , 其 中 ， 


f(y,zx) 与 1(z) 是 两 变量 核 密度 估计 量 与 单 变量 核 密度 估计 量 。 可 以 证 明 , 这 等 于 
式 (9. 21) 中 的 佑 计量 。 统 计 文 献 还 考虑 固定 设计 (fixed design) 或 固定 回归 元 情况 
下 的 核 回 归 , 其 中 ,f(x) 是 已 知 的 且 不 需要 估计 ,不 过 ,我 们 只 考察 由 观测 数据 引 
起 的 随机 回归 元 (stochastic regression ) 情况 。 

核 回 归 佑 计量 是 加 权 平 均 式 (9. 16) 的 一 种 特殊 情况 ,其 权 数 为 : 


zi 一 一 一 一 一 一 一 一 一 一 一 (9. 22) 


由 构建 方法 知 , 对 i 求 和 为 1。 尽 管 这 与 9. 4 节 的 一 般 结 果 有 关 , 但 我 们 仍 给 出 更 
详细 的 分 析 。 
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9. 5.2 统计 推断 


一 旦 假定 数据 是 iid 的 ,已 知 对 KC) 及 4 的 选取 ,我 们 阐述 核 回 归 估 计量 
mMm(X) 的 分 布 。 我 们 以 隐 性 方式 假定 回归 元 都 是 连续 的 。 对 离散 回归 元 来 说 ， 
mm(zo) 仍 将 在 m(zo) 处 失效 ,同时 闹 (zo) 极限 形式 和 (xzo ) 都 是 阶梯 函数 。 

一 致 性 

对 于 条 件 均 值 函 数 m(zo) 来 说 , 蓉 (xo) 的 一 致 性 (econsistency) 要 求 A >~0, 因 此， 
大 的 权 数 只 给 予 非常 接近 ze 的 x;。 可 是 ,我 们 需要 接近 z 的 众多 x;, 因 此 ,许多 
观测 值 用 于 建立 加 权 平 均 。 正 式 地 讲 , 如 果 当 N 一 ce 时 ,六 0 且 Nh 一 co, 那么 


M(xo) > mro). 

仿 们 

假定 m(xz) 是 二 次 可 微 的 , 则 核 回 归 佑 计量 是 有 偏 的 ,其 人 惫 倚 数 量 是 OC ) 的 ， 
俩 倚 项 是 : 


(参见 9. 8. 2 节 )。 就 核 密度 估计 而 言 , 其 偏 倚 会 随 着 所 使 用 的 核 国 数 而 变化 。 更 
为 重要 的 是 , 偏 们 依赖 于 回归 骤 数 mx(xzo) 的 斜率 与 曲率 ,还 有 回归 元 的 密度 f(x) 
的 斜率 ,而 就 密度 估计 而 言 , 偏 和 倚 仅 依 赖 于 f(xo) 的 二 阶 导 数 。 偏 从 在 端点 处 表现 
得 特别 大 ,正如 9.4.2 节 所 阅 明 的 。 

通过 利用 9. 3. 3 节 定 义 的 较 离 阶 核 ,以 及 边界 修改 壁 如 特定 边界 核 ,就 能 减少 
偶 傈 。 局 部 多 项 式 回 归 以 及 譬如 洛斯 (参见 9. 6. 2 节 ) 修 改 都 颇 为 引 人 注 目 , 即 去 
掉 式 (9. 23) 中 依赖 于 mm (zo) 的 项 ,从 而 在 边界 上 表现 得 很 好 。 

渐 近 正 态 性 

在 9.8.2 ,已 经 证 明 , 对 于 具有 密度 f(zx;) 的 iid 的 xz; 来 说 , 核 回 归 估 计量 具 
有 极限 分 布 (limit distribution): 


pro) 一 疡 - (m Cxo) 





d 2 
VN (Cm) — mrs) — bx,)) Nlo, Fe | KCz)zdz | (9. 24) 
ff (xo) 


对 小 的 Frzo) 来 说 , 式 (9. 24) 中 的 方差 (variance) 却 较 大 ,因此 ,如 同人 们 所 料 ,在 
稀少 的 区 域 上 , 议 (xo) 的 方差 却 较 大 。 


9. 5. 3 带宽 选择 


一 旦 把 关于 xz; 关 zx。 的 那些 y, 值 并 入 加 权 平 均 之 中 ,就 会 传 入 偏 倚 , 因 为 对 于 
in0 , E|_ ~; [zx; |—m(z;) mz ) o 不 过 9 由 于 我 们 利用 更 多 数据 加 以 平均 * 故 利 
用 这 些 额 外 点 会 减少 估计 量 的 方差 。 最 优 带 宽 是 在 增 大 偏 倚 与 减少 方差 之 间 做 出 
一 种 权衡 ,这 用 到 了 平方 误差 损失 。 与 核 密度 估计 不 同 ,插入 值 方 法 并 不 切合 实 
际 ,而 交叉 验证 则 应 用 更 为 广泛 。 

为 了 简单 起 见 , 大 多 数 研究 都 关注 为 zx 所 有 值 选取 一 个 带宽 。 一 些 方 法 具有 
可 变 的 带宽 , 像 著名 的 &- NN 与 洛斯 方法 ,这 都 在 9.6 节 给 出 。 
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积分 均 方 误 差 
六 (。) 在 z 点 的 局 部 效果 是 ,用 均 方 误差 (meanrsquared error) 来 测量 , 它 由 : 


MSE| (xo) |=E[ Gh(Cxro) —m( zo ) )° | 


给 出 ,其 中 ,期 望 消除 了 议 (zo) 对 工 的 依赖 性 。 由 于 MSE 等 于 方差 加 平方 偏 倚 ， 故 
能 够 利用 式 (9. 23) 与 式 (9. 24) 来 获得 MSE。 
与 9. 3. 6 节 相 类 似 , 平 方 积分 误差 (integrated square error) 是 ， 


ISE(h) = | Gn) — m(zo0)) fxo) dro 


其 中 , f(x) 表示 回归 元 xz 的 密度 ,而 均值 平方 积分 误差 (mean integrated square 
error) 或 等 价 形式 的 积分 均 方 误 帮 是 : 


MISE(h) = |MSE[m(z0)] fro) dro 


最 优 带宽 

最 优 带 宽 h* 是 求 MISE (1) 极 小 值 。 这 就 得 到 ,h* 一 OCN™™?), 因 为 由 式 
(9. 23) 知 , 偏 倚 是 OCh?); 而 由 式 (9. 24) 知 ,方差 是 OCCNh)7T1) ,因为 在 用 v NA 标 
度 革 (zo) 之 后 ,可 获得 O(1) 方 差 ; 为 使 偏 倚 平 方 与 方差 成 为 同 阶 形式 , 则 (h)* 二 
(Nh)-! 或 者 h= 二 N-*?*。 于 是 , 核 估计 以 速率 (NA) 二 N 下 ! 收 化 到 mxo) ,而 
不 是 以 参数 分 析 中 的 通常 速率 N 收敛 。 

插入 带宽 估计 

如 果 利 用 与 9. 3. 5 节 中 关于 核 密度 估计 量 的 那 种 方法 相 类 似 的 微分 方法 ,人 
们 就 能 获得 求 MISE(h) 极 小 值 的 及 准确 表达 式 。 于 是 ,hh 依赖 于 式 (9. 23) 与 式 
(9. 24) 中 的 人 惫 从 及 方差 。 

搬 人 方法 (plug-in approach) 是 利用 这 些 未 知 的 估计 值 来 计算 产 。 不 过 ,例如 ， 
对 x(zx) 进 行 估计 时 需要 非 参 数 方法 ,该 非 参 数 方法 同样 需要 初始 带宽 选取 ,但 六 
还 是 依赖 于 -一些 未 知 量 譬如 mw (x)。 出 现 这 些 复 林 情 况 时 ,人 们 就 应 该 愤 用 插入 
人 秸 计 。 一 种 更 为 通行 的 方法 是 运用 交 又 验证 ,该 方法 将 在 下 面 阐述 。 

而 且 , 可 以 证 明 , 当 使 用 埃 帕 内 尼 科 夫 核 [参见 哈 德 尔 (Hirdle,1990, 第 186 
页 ) ;或 哈 德 尔 和 林 顿 (Hardle and Linton,1994, 第 2 321 页 ) 时 ,MISE(h* ) 就 被 极 
小 化 了 ,尽管 如 辐 核 回 归 一 样 ,MISE(h*) 对 其 他 核 来 说 并 不 是 较 大 的 。 一 -个 关键 
性 问题 是 确定 h* ,这 将 会 随 核 与 数据 而 变化 。 

交叉 验证 

通过 去 掉 一 个 交叉 验证 (cross-validation) 方 法 ,可 获得 最 优 hh 的 经 验 人 估计。 该 
方法 是 选取 有" ,以 使 下 式 极 小 化 : 


~N 
CVh) = > (太一 页 ;zi))2rCzi) (9. 25) 
1 一 】 


其 中 ,r(zi) 表 示 加 权 函 数 (下 面 将 讨论 ) 
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71m; (x,) -一 ui/ Dvn, (9. 26) 
7? 了 天 


表示 通过 核 公式 (9. 21) 或 更 一 般 地 通过 加 权 方 法 (9. 16) 式 ,连同 去 掉 y; 的 调整 而 
获得 的 m (zx;) 的 去 掉 一 个 估计 值 (leave-one-out estimate) 。 

正如 区 叉 验 证 第 一 次 出 现 的 那样 ,交叉 验证 不 是 一 种 密集 计算 。 可 以 证 明 : 

一 让 (7) 一 了 二 一 (9. 27) 

因此 ,对 于 每 一 个 h 值 ,交叉 验证 仅仅 需要 加 权 平 均 芒 (x;) 的 一 种 计算 ,i 二 1,…,N， 

为 了 潜在 降低 端点 权 数 ,要 引入 权 数 x(x;) ,否则 可 能 是 一 个 严重 的 问题 ,如 同 
9. 4.2 六 所 痢 述 的 ,原因 在 于 羡 点 处 局 部 加 权 佑 计 具 有 极 高 的 偏 倚 。 例 如 ,x; 外 面 
的 第 5% 百 分 位 数 到 第 95% 百 分 位 数 观测 值 并 没有 用 于 计算 CV(4) ,在 此 情况 下 ， 
对 这 些 观 测 值 来 说 ,x(x;) 二 0, 而 其 他 情况 下 ,x(x;) 二 1。 运 用 交叉 验证 术语 是 因 
为 它 证 实 了 利用 数据 集中 所 有 其 他 观测 值 去 预测 第 i 个 观测 值 的 能 力 。 第 i 个 观 
测 值 被 名 略 掉 , 是 因为 如 果 在 预测 中 额外 地 使 用 它 , 当 7 (x;) 二 yi(i 二 1,…,NN) 
时 ,CV(h) 目 然 被 极 小 化 。CV (4) 也 称 为 估计 预测 误差 (estimated prediction 
error) 。 

哈 德 尔 和 马 伦 (Hardle and Marron,，1985) 已 经 证 明 , 对 CY(h) 求 极 小 值 ， 
渐 近 地 等 价 于 对 ISE(h) 的 修正 值 与 MISE(h) 求 极 小 化 。 这 种 修正 包括 被 积 
图 数 中 的 加 权 郴 数 r(Cxzo), 以 及 平均 平方 误差 (averaged squared error, ASE) 
N -2;( 六 (zi 一 maCzi))2r(xzi) ,这 是 对 JISE(CA) 的 一 种 离散 样本 近似 。 不 过 ,测量 
CV(h) 以 低速 率 OCN 1) 收 和 伍 , 因 此 ,CVC) 在 有 限 样本 中 表现 出 相当 可 变 的 。 

广义 交叉 验证 

对 去 掉 一 个 交叉 验证 来 说 ,一 种 可 供 选 择 的 方法 是 使 用 类 似 于 CV(CA) 的 测量 ， 
只 是 更 简单 地 使 用 次 (zi) 而 不 是 六 -zi 然后 增加 模型 复杂 性 惩罚 ,该 惩罚 会 随 
者 带 览 hh 减 小 而 增 大 。 从 而 得 出 ， 


N 
PV(h) = >》， ( y， — RT) A xi) pi ) 
一] 


其 中 "pl* ) 表 示 惩 四 函数 ,而 zw 表示 Mm (xi) 一 Dj jy 中 给 定 第 1 个 观测 值 时 
的 权 数 。 

一 个 广 为 流 行 的 例子 是 广义 交叉 验证 测量 (generalized cross-validation meas- 
tre ) , 它 使 用 惩罚 果 数 p Cvwii,s ) 二 (1 一 Cis ,A ) o 其 他 一 些 惩 罚 因数 已 由 哈 德 尔 
(Hiardle,， 1990, 第 167 页 ) 以 及 哈 德尔 和 林 顿 (Hairdle and Linton,， 1994, 第 2 323 
页 ) 给 出 。 

交叉 验证 例子 

就 9.4.2 节 中 局 部 进行 平均 的 例子 而 言 ,对 于 有 =3, 5, 7, 9, 25,CV(A) 一 
54 811, 56 666，63 456，65 605, 69 939。 在 这 种 情况 下 ,所 有 观测 值 都 用 于 计算 
CV(k) ,满足 x(xzi) 王 1, 尽管 可 能 出 现 问 点 问题 。 在 8 二 5 之 后 ,没有 实际 提高 , 即 
使 从 图 9. 5 中 看 ,这 个 值 产 生 太 粗略 的 估计 值 ,但 在 实际 应 用 时 ,人 们 愿意 选取 比 
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较 大 的 & 值 ,以 便 得 到 较为 光滑 的 曲线 。 

更 一 般 地 讲 , 交 又 验证 绝 不 是 完美 无 缺 的 ,为 了 获得 人 们 所 期 望 的 光滑 程度 ， 
一 种 普遍 方法 是 采用 “目测 ”选取 来 拟 合 非 参 数 曲 线 。 

修饰 

式 (9. 21) 核 估计 量 的 分 母 是 f(xo), 即 回归 元 的 密度 在 zx 点 的 核 估计 值 。 在 
一 些 计算 点 上 ,f(x;) 可 以 非常 小 ,从 而 导致 非常 大 的 估计 值 六 (zi)。 修 饰 C11 
(trimming) 可 消除 或 大 大 降低 满足 f(x;) 二 5 所 有 点 的 权 数 ,比如 说 当 N 一 o2 时 ,b。 
以 适当 速率 65->0。 这 类 问题 可 能 在 分 布 尾 部 出 现 。 对 于 非 参 数 估计 来 说 ;人们 仅 
仅 关 注 于 z; 的 更 居中 心 值 的 mr (x;) 佑 计 , 以 及 尾部 中 可 能 在 交叉 验证 降低 权 数 的 
那些 什 。 不 过 ,9.7 节 的 半 参 数 方 法 必须 在 x; 的 所 有 值 上 计算 ,在 此 情况 下 ,进行 
修饰 就 不 足 为 奇 了 。 从 原则 上 讲 , 尽 管 在 有 限 样本 上 修饰 将 会 有 些 差异 ,但 在 渐 近 
形式 上 修饰 函数 应 该 没有 差异 。 


9. 5.4 置信 区 癌 

通 弟 , 核 回 归 佑 计 应 以 逐 点 置信 区 间 加 以 阐述 。 一 种 简单 方法 是 ,阐述 在 x。 
点 处 计算 的 Frzo) 的 逐 点 置信 区 间 ,例如 xz 等 于 工 的 第 荆 个 十 分 位 数 间 到 第 9 个 
十 分 位 数 。 

当 忽 略 议 (xo) 中 的 偏 从 ,由 式 (9. 24) 知 ,得 到 下 述 95% 置 信和 区 间 (confidence 


interval). 





75 
jz E mlx,)t 1.96 1 Ce ,| Kae 


Nh f(xo) 
其 中 ,Os Do ne , 而 C0 已 由 式 (9. 22 ) 冠 X， f xo ) 表示 在 0 点 的 核 密度 值 
计 。 该 估计 假定 同方 差 误 差 , 尽 管 对 异 方差 性 可 能 是 稳健 的 ,因为 接近 zx 的 观测 
值 被 赋予 最 大 权 数 。 否 则 ,由 式 (9. 20) 之 后 的 讨论 知 , 异 方差 稳健 的 95% 置 信和 区 
间 是 六 (xzo) 士 1.965 ,其 中 ,5 一 > woo pe?。 

如 同 在 核 密度 情况 下 一 样 ,wx(xo) 中 的 偏 估 不 应 被 忽略 。 正 如 已 注意 到 的 ,对 
仿 倚 进行 估计 很 困难 。 然 而 ,一 种 标准 方法 是 ,就 较 小 带宽 有 而 言 ,满足 hh 二 oCN "?) 
而 不 是 最 优 的 r= 二 OCN “?) ,进行 光滑 不 足 。 

险 德 尔 (Hardlie，1990) 曾 经 给 出 详细 的 置信 区 间 表 述 , 包 括 一 致 置信 带 而 不 
是 逐 点 区 间 , 而 自助 法 则 将 在 11. 6. 5 节 加 以 详 述 。 


9.5.5 导数 估计 


当 进 行 回归 时 ,我 们 经 党 对 y 的 条 件 均值 如 何 随 x 变化 而 变动 感 兴趣 , 即 边际 
效应 (marginai effect) 而 不 是 条 件 均 值 本 冉 。 

很 容易 用 核 舍 计 求 导数 。 一 个 一 般 性 结果 是 , 核 回 归 估 计 的 第 ; 阶 导 数 
MCTo) 关 于 (zo) 是 一 致 的 ,mr (xzo) 表 示 和 条件 均值 (xzo) 的 第 阶 导 数 , 人们 


[C1] 又 称 为 修 前 。 一 一 译 者 注 
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能 采用 微分 法 ,或 者 采用 有 限 差 分 法 加 以 计算 。 

举 一 个 例子 ,考虑 前 一 节 的 数据 生成 例子 中 一 阶 导 数 的 估计 。 设 zi ,… ,zw 表 
示 有 序 点 , 核 回归 函 数 在 这 些 点 上 进行 计算 ,而 议 (z1),…，, 议 (zn) 表 示 在 这 些 点 上 
的 估计 值 。 有 限 差分 估计 是 六 (zi) 二 [六 (zi) 一 这 (zi_-1)j]/[Lzi 一 z-1]。 由 式 (9. 17) 
给 出 的 数据 生成 过 程 (dgp) 是 二 次 形式 议 '(z,;) 二 6. 5 一 0. 30z; 十 0. 003z? ,图 9.7 面 
出 有 限 差 分 值 计 以 及 实际 导数 。 正 如 人 们 所 料 , 导 数 佑 计 有 点 繁琐 ,但 它 却 能 抓 住 
本 质 。 导 数 估计 应 建立 在 对 条 件 均 值 过 度 光滑 估计 的 基础 上 。 对 于 更 详细 内 容 ， 
参见 帕 甘 和 乌拉 (Pagan and Ullah，1999, 第 4 章 )。 哈 德尔 (Hairdle，1990， 第 
160 页 ) 曾 述 了 交叉 验证 对 导数 估计 的 修改 。 

非 参 数 导 数 估 计 


因 变 量 y 





0 20 40 60 80 100 


回归 元 x 
图 9.7 利用 前 面 估 计 的 洛斯 回归 曲线 与 三 次 回归 曲线 的 非 参 数 导 数 人 和 估计。 数据 生成 过 程 


与 图 9. 5 的 一 样 。 
除 局 部 导数 my(zo) 之 外 ,我 们 还 对 平均 导数 E[m'(z)] 感 兴趣 。 由 9. 7.4 节 
给 出 的 平均 导数 估计 量 提 供 了 w 玉 一 致 的 且 渐 近 正 态 的 Efm (x)] 估 计 ， 
9. 5.6 条 件 算 信 计 
条 件 均 值 E[y|z] 一 mx) 的 核 回 归 方 法 能 够 被 推广 到 其 他 条 件 矩 的 非 参 数 人 
al moments) 壁 如 E| | zj 来 说 ,我 们 用 加 权 平 均 : 
ELy: lzo] = Day’ Cg. 28) 


其 中 , 权 数 TOiO,h 与 估计 m (xo ) 时 所 用 的 权 数 一 样 0 

于 是 ,中 心 条 件 矩 能 通过 把 它们 重新 表达 成 原始 矩 的 加 权 和 而 得 以 计算 。 例 
如 ,由 于 VL[y|z]= 二 Ef[y|zj] 一 (ELy|xj?, 所 以 通过 祷 [y |zoj 一 壤 (xo)? 来 估计 其 
条 件 方 差 。 人 们 发 现 , 与 对 条 件 均 值 估 计 相 比 , 对 较 高 阶 的 条 件 矩 进行 估计 更 为 
繁琐 。 


9. 5.7 多 元 变量 核 回归 


前 面 讨 论 了 单个 回归 元 的 核 回 归 。 对 于 纯 量 y 对 上 维 向 量 x 的 回归 有 即 六 一 
m(x;)+e; 一 712CZ1i 9 TIk) te; 来 说 ,m(xo ) 的 核 和 估计 量变 成 . 
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mK(™ h )> 
N X; 一 
Nr Ki ) 

其 中 ,K(*) 现 在 表示 多 元 变量 核 (multivariate kernel)。 尺 管 使 用 多 元 变量 核 , 壁 
如 多 元 变量 正 态 密度 ,但 K(:) 经 常 是 上 个 一 维 核 之 积 。 

当 使 用 乘积 核 时 ,回归 元 应 通过 除 以 标准 差 变 换 成 为 一 种 共同 标 度 。 然 后 , 交 
义 验 证 测量 式 (9. 25) 能 用 于 决定 共同 的 最 优 带 宽 h* ,虽然 要 决定 哪 一 个 x; 应 该 被 
降低 权 数 ,因为 当 x 是 多 变量 时 ,接近 于 端点 的 闭 性 结果 就 更 为 复杂 。 否 则 ,回归 
元 无 顷 重新 标 度 ,然而 ,对 于 每 一 个 回归 元 都 应 该 使 用 各 种 不 同 的 带宽 。 

由 于 估计 又 一 次 是 y; 的 一 种 局 部 平均 ,所 以 渐 近 结果 与 表达 式 均 类 似 于 前 面 
曾 考 察 的 那些 结果 。 如 同 前 面 一 样 , 偏 倚 (xm ) 再 次 是 OC ), 但 达 (xo) 的 方差 却 
以 速率 OCNA*) 下 降 , 它 比 一 维 情况 收敛 得 更 慢 , 因 为 实际 上 样本 中 很 小 部 分 被 用 
于 求 7 Xo ) 。 于 是 : 


(Xo) = 








4 2 
NRECORCK) mK) — bx )) 全 AN|0， 一 全 | KCz)zdz | 
f (xo) 


最 优 帝 宽 选 取 是 h* 二 OCN "%*”) ,这 比 一 维 情 况 要 大 一 些 。 相 应 的 态 ( 和 ) 最 优 
束 座 是 N24) , . 

这 一 结果 与 前 面 的 一 些 纯 量 结果 均 假定 ,m (zx) 是 二 次 可 微 的 , 即 获 得 式 
(9. 23) 偏 倚 项 的 必要 条 件 , 可 是 当 m(z) 是 pp 次 可 微 时 ,利用 p 阶 有 序 核 来 使 偏 倚 
的 阶 数 减 少 ( 参 见 9. 3. 3 节 ), 从 而 导致 较 小 的 并且 达 到 9. 4. 5 节 给 出 的 斯 通 界 
(Stone' s bound) 的 较 快 收敛 速率 ;参见 哈 德 尔 (Hardle，1990, 第 93 页 ) 的 更 详细 内 
容 。 下 一 给 出 的 其 他 非 参 数 估 计量 也 能 达到 斯 通 界 。 

随 痢 回归 元 个 数 增加 ,收敛 速率 会 减少 ,而 当 回 归 元 个 数 趋 问 于 无 穷 时 ,收敛 
速率 趋 于 N°。 这 种 维 数 祸根 Ccurse of dimensionality) 大 大 限制 了 具有 几 个 回归 元 
的 回归 模型 中 对 非 参 数 方 法 的 使 用 。 半 参数 模型 (参见 9.7 节 ) 设 置 了 额外 结构 ， 
以 使 非 参数 成 分 具有 很 小 维 数 。 


9. 5.8 参数 模型 检验 


对 条 件 均值 参数 模型 进行 正确 设 定 的 一 种 明显 检验 是 ,把 拟 合 均值 与 从 非 参 
数 模型 中 获得 的 值 进 行 比较 。 

设 因 (Cx) 表 示 E[y|xj 的 参数 估计 量 , 而 加 (x) 表 示 非 参数 估计 量 , 辟 如 核 估 
计 。 一 种 方法 是 在 x 值 范围 内 ,把 hy《X) 与 世 ; (xz) 进行 比较 。 这 因为 需要 坟 , (XxX) 中 
正确 的 渐 近 偏 倚 而 变 得 复杂 [参见 哈 德尔 和 玛 门 (Hairdle and Mammen, 1993) ]。 
第 二 种 方法 是 , 考 察 形式 为 Niui(w 一 ip05)) 的 条 件 算 检验 ,其 中 ,各 种 不 同 
权 数 部 分 地 建立 在 核 回 归 基 础 上 ,这 些 不 同 权 数 用 于 检验 各 种 不 同方 向 的 ELy|xj 二 
Mo(X) 的 成 立 与 否 。 例 如 , 霍 罗 维 奖 和 哈 德尔 (Horowitz and Hardle，1994) 使 用 了 
1w; 一 谢 (《xX;) 一 入 。 帕 甘 和 乌拉 (Pagan and Ulliah，1999 ,第 141 一 150 页 ) 及 亚 
竺 乒 (Yatchew，2003 ,第 119 一 124 页 ) 对 所 使 用 的 方法 给 出 了 一 个 综述 。 
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9.6 可 供 选择 的 非 参数 回归 佑 计量 


9. 4 节 曾 引入 局 部 回归 方法 , 即 该 方法 通过 局 部 加 权 平 均 次 (xzo) 王 记 ioionyi 
估计 回归 函数 mm (xzo) ,其 中 , 权 数 zs 一 记 Cziyzo 六) 不 同 于 xo 点 处 的 计算 值 ,但 
与 点 处 的 值 相 同 。9. 5 节 已 经 阐述 了 权 数 都 是 核 权 数 时 的 详细 结果 ， 

这 里 ,我 们 考察 对 应 于 其 他 权 数 的 一 些 普 裔 使 用 的 佑 计量 。 尺 管 关 于 偏 从 与 
方差 的 准确 表达 式 不 同 于 式 (9. 23) 与 式 (9. 24) 中 的 那些 结果 ,但 是 对 于 使 用 类 似 
的 最 优 收 伍 率 与 带宽 选取 的 交叉 验证 ，9. 5 节 中 的 许多 结果 都 可 以 完成 。9. 6. 2 
节 给 出 的 佑 计量 尤其 流行 。 


9.6.1 最 近邻 位 订 重 


& -最 近邻 估计 量 ( 上 nearest neighbor estimator) 是 最 接近 xo 的 & 个 ;观测 值 
的 那些 y 值 的 等 权 平 均 。 将 Ne (wo) 定义 成 最 接近 xo 的 & 个 观测 值 的 集合 。 
于 是 : 


N 
Wp-NN (To ) 一 ~ 二 > 下 (.z， CE Ni (Xo ) ) Yy; (9, 29) 
j=1 


该 估计 量 是 带 有 一 致 权 数 的 核 估 计量 (参见 表 9. 1), 只 是 其 带宽 变化 。 此 处 ,在 zx。 
点 的 带宽 六 等 于 zo 与 & 个 最 近邻 中 的 最 远 者 之 间 的 距离 ,而 且 更 正式 地 ,有 ho 二 
kA(2Nf(zo))。 数 量 &/N 称 为 跨 距 和 11(span)。 比 较 光 滑 的 曲线 可 利用 式 (9. 29) 
中 的 核 权 数 来 获得 。 

这 个 估计 量 因 为 提供 了 可 变 带 宽 选 择 的 简单 规则 而 引 人 注 目 。 从 计算 上 看 ， 
一 种 较 快 的 方式 是 ,使 用 对 称 形式 (symmetrized) ,即使 用 &/2 个 左边 的 最 近邻 以 及 
相同 个 数 右 边 的 最 近邻 ,这 是 9. 4. 2 节 用 过 的 局 部 平均 方法 。 从 而 ,人 们 能 运用 依 
zi 递增 顺序 而 排列 的 观测 值 校正 公式 ,从 而 当 zo 增 大 时 ,一 个 观测 值 离开 数据 ,而 
另 一 个 观测 值 进 入 数据 。 


9.6.2 局 部 线性 回归 与 次 斯 厅 已 


核 回 归 佑 计量 是 一 种 局 部 常 值 估计 量 (local constant estimator) ,因为 它 假 定 
m(z) 在 zo 的 局 部 邻 域 之 内 为 常 值 。 可 是 ,人 们 能 设 m(z) 在 zo 邻 域 之 内 是 线性 
的 ,因而 在 x。 某 个 领域 中 ,m(x) 一 wo 十 Do (XxX 一 Xxo)。 

为 了 实施 这 一 -想法 ,注意 到 , 核 回归 估计 量 坑 (zxo) 可 通过 对 2;K((x 一 x0)/h)X 
(yj; 一 m0)? 求 关于 mo 的 极 小 值 而 获得 。 局 部 线性 回归 估计 量 (local linear regres- 
sion estimaftor ) 求 : 


N 
DK (Te ) Cy — ao — boli — x0))’ (9. 30) 
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人 


关于 Uo 与 bo 的 极 小 值 ,其 中 ,天 ) 表 示 核 加 权 图 数 。 于 是 ,在 过 和 邻 域内 :7X) 一 
bo 十 bo 《Xx 一 Xo0)。 然 后 ,在 zxo 点 处 ,估计 值 准 确 地 是 鞠 (z) 王 6, 而 bo 提供 了 一 阶 
导数 碗 (xo) 的 估计 值 。 更 一 般 地 讲 ,p 次 局 部 多 项 式 估 计量 (local polynomial esti- 
mator of degree) 求 : 


一 一 — 2 
2 K (“Te EE ) (% oo a wz) a0 Sr ) (9. 31) 
一] . 


的 极 小 值 ,得 到 访 *(xo) 二 Go,,。 

范 剑 青 和 庆 册 尔 斯 (FEan and Gilbels，1996) 对 该 方法 给 出 了 许多 性 质 , 并 前 明 
其 引 人 注 目的 原因 。 在 每 一 个 计算 点 ze 上 ,估计 仅仅 需要 加 权 最 小 二 乘法 回归 。 
此 估计 量 能 表述 成 y; 的 一 个 加 权 平 均 , 因 为 它们 都 是 LS 佑 计量。 局 部 线性 估计 


量具 有 偏 倚 项 6(xzo) = 二 有 hi (Fm (x0) ) 2 Kz, 与 式 (9. 23) 给 出 的 核 回 归 偏 倚 


不 一 样 ,5(xzo) 不 依赖 于 mm (zxzo)。 这 特别 有 助 于 克服 9. 4. 2 节 已 经 阐述 的 边界 问 
题 。 为 了 估计 第 ; 阶 导数 ,对 p 的 一 个 好 选取 是 p 王 :十 1, 因 此 ,例如 ,人 们 使 用 局 
部 二 次 估计 量 来 佑 计 一 阶 导 数 。 

标准 的 局 部 回归 估计 量 是 局 部 加 权 散 点 光 清 法 (Clocally weighted scatterplot 
smoothing, 简 记 为 LOWESS) 或 克利 夫 兰 (CCleveland，1979) 的 洛斯 佑 计量 (Lowess 
estimator) 。 这 是 局 部 多 项 式 估 计 的 一 种 变形 ,局 部 多 项 式 估 计 式 (9. 31) 使 用 了 由 
从 zo 到 zo 的 第 & 个 最 近邻 点 距离 决定 的 可 弯 带 宽 Aoe ,使 用 厂 9 次 核 人 K(xz) 二 
(70/81)(1 一 |zl3)31Cz|<1); 并 对 具有 大 残 差 关 一 页 (z) 的 观测 值 降低 加 权 , 这 
需要 经 过 数据 N 次 。 有 关 综 述 , 参 见 范 剑 青 和 吉 贝 尔 斯 (Fan and Gijbels，1996， 
第 24 页 )。 与 核 回归 相 比 ,洛斯 (Lowess) 佑 计量 则 引 人 注 目 , 因 为 它 使 用 可 变 融 
宽 , 对 离 群 值 来 说 是 稳健 的 ,并 利用 局 部 多 项 式 估 计量 求 边界 问题 的 极 小 值 。 可 
是 , 它 是 一 种 密集 计算 。 

另外 一 种 流行 的 变形 是 , 弗 里 德 曼 (Friedman，1984) 的 超 光 滑 子 (supers- 
moother)[ 参见 哈 德 尔 (Hirdle,1990, 第 181 页 )]。 为 了 更 好 地 在 边界 处 利用 局 部 
线性 拟 合 而 不 是 局 部 常 值 拟 合 ,一 个 起 点 是 对 称 的 &-NN。 可 是 , 超 光 滑 子 是 一 种 
可 变 跨 距 光滑 子 (smoother) 而 不 是 用 固定 跨 距 或 固定 的 &, 其 中 ,可 变 跨 距 是 由 局 
部 交叉 验证 来 确定 的 ,交叉 验证 需要 9 次 转移 数据 。 与 洛斯 佑 计量 相 比 , 超 光 请 于 
对 离 群 值 来 说 不 是 稳健 的 ,但 它 却 允许 跨 距 变 化 且 是 快速 计算 的 。 


9. 6.3 光 少 样 条 信 计 量 


三 次 光滑 样 条 估计 量 (cubic smoothing spline estimator)7N, (xX) 对 惩 列 残 差 平 
方 和 : 


Ny 
PRSS() = > Cy; 一 CT) FA] mC) ?dr (9. 32) 
1 一] 


求 极 小 值 ,其 中 ,4 表示 光滑 系数 。 如 同 本 章 其 他 地 方 一 样 ,使 用 平方 误差 损失 。 
第 一 项 只 会 产生 相当 粗糙 的 拟 合 ,进而 六 (cz) 三 六 。 第 二 项 引入 惩 如 粗糙 度 
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(roughness) 。9. 5. 3 三 的 交叉 验证 方法 可 用 于 确定 4, 对 于 4 较 大 值 来 说 ,会 导致 
较 光 滑 的 曲线 。 

哈 德尔 (Hairdle，1990, 第 56~65 页 ) 已 经 证 明 ,r (zx) 关于 逐次 x 值 是 三 项 
多 项 式 的 ,而 旦 此 估计 量 能 表达 成 y 值 的 一 个 局 部 加 权 平 均 ,并 且 是 渐 近 等 价 于 具 
有 特殊 可 变 核 的 核 佑 计量。 在 微观 经 济 计量 学 中 ,与 本 章 其 他 方法 相 比 ,光滑 样 条 
并 不 经 稍 使 用 。 此 方法 适用 于 其 他 的 粗糙 度 惩罚 与 其 他 的 损失 盟 数 。 


9. 6.4 序列 信 坟 重 
序列 估计 量 是 通过 K 个 函数 z1(x),…,zk (x) 的 加 权 和 通 近 回归 函数 : 


K 
mk (TI) 一 >, Bizi() (9. 33 ) 
7 一 1 . 


其 中 ,系数 B(x),…,PBk 可 直接 通过 yy 对 zi(x),…,zk (Xx) 的 OLS 回归 获得 。 矣 
数 z1《z),… ,zk 《xX) 构 成 了 一 个 截取 序列 。 一 些 例子 包括 ,第 (K 一 1) 阶 多 项 式 通 近 
或 者 满足 z; (zx) 二 x 的 大 序列 7 一 1,…,KK; 正 交 变 形 以 及 标准 正 交 多 项 式 变 形 
(参见 12. 3. 1 节 ) ;截取 健 里 叶 序 列 , 其 中国 归 元 被 重新 标 度 ,从 而 zEL0,2xj; 加 
伦 特 (Gallant，1981) 的 傅 里 叶 灵 活 函 数 形 式 , 它 是 一 种 截取 傅 里 叶 序 列 加 上 > 与 
Xx? 项 ;通过 在 给 定 绪 点 (knots) 个 数 之 间 的 多 项 式 郴 数 通 近 回 归 上 曙 数 mmz) 的 回归 
样 条 ,这 些 函 数 在 绪 点 处 连接 在 一 起 。 

此 方法 不 同 于 9. 4 节 中 的 方法 ,因为 它 是 估计 m(z) 的 一 种 全 局 近似 方法 。 不 


过 ,如 果 当 Neco 时 ,以 适当 速率 K>o0, 那 么 鞠 k(x) 让 m(zxo)。 由 纽 书 (Newey， 
1997) 知 ,如 果 x 是 上 维 的 且 m(x) 是 p 次 可 微 的 ,那么 积分 均 方 误差 (参见 9. 5. 3 
节 )MISE(h) 二 OCK ?十 K/N), 其 中 ,第 一 项 反映 偏 倚 ,而 第 二 项 则 反映 方差 。 
今 这 些 式 子 相等 ,得 出 最 优 K* = 一 N* 人 zt ,所 以 K 增 大 , 却 以 比 样本 量 较 低 的 速率 
增长 。 议 (xz) 的 收敛 速率 等 于 9. 4. 5 节 给 出 的 斯 通 (Stone，1980) 最 快 可 能 速率 。 

从 直观 上 讲 ,序列 估 计量 并 不 是 稳健 的 ,因为 离散 值 可 能 是 全 局 性 的 而 不 仅仅 
为 局 部 影响 次 (z) ,但 这 一 猜想 在 教科 书 给 出 的 典型 例子 中 无 顷 检 验 。 

安德鲁 斯 (Andrews，1991) 与 纽 韦 (Newey，1997) 给 出 一 个 包括 多 元 变量 情 
况 的 非常 一 般 性 的 研究 ,研究 内 容 包 括 泛 肾 佑 计 而 不 是 条 件 均 值 ,以 及 对 半 参 数 模 
型 的 推广 ,其 中 序列 方法 是 最 经 第 使 用 的 。 


9. 7 半 参 数 回归 


上 述 分 析 , 在 没有 任何 结构 情况 下 强调 了 回归 模型 。 在 微观 经 济 计量 学 中 , 通 
常 把 某 种 结构 施加 到 回归 模型 上 。 

首先 ,在 需求 函数 中 ,经 济 理论 会 施加 某 种 结构 ,譬如 对 称 性 与 同 质 性 。 这 类 
信息 会 被 并 人 非 参 数 回归 中 ;例如 ,参见 马 奖 金 (Matzkin，1994) 。 

其 次 ,也 更 为 广泛 出 现 的 ,经 济 计量 模型 包括 众多 潜在 回归 元 ,以 致 维 数 帘 
根 完 全 使 得 非 参 数 分析 不 切合 实际 。 然 而 ,一 种 普遍 方法 是 佑 计 半 参数 模型 


微观 经 济 计量 学 


(semiparametric model) ,粗略 地 讲 , 半 参数 回归 是 把 参数 成 分 与 非 参 数 成 分 结合 
来 ,参见 鲍威尔 (Powell，1994) 对 半 参 数 术语 的 详细 讨论 ， 

存在 许多 不 同 的 半 参 数 模型 ,而 且 相 当 多 的 方法 均 可 用 于 一 致 地 估计 这 些 模 
型 。 在 本 节 ,我们 仅仅 阐述 几 个 重要 例子 。 一 些 应 用 也 会 在 本 书 的 其 他 地 方 给 出 ， 
包括 第 14 章 和 第 16 章 给 出 的 二 值 结果 模型 与 删 失 回 归 模 型 。 


9.7.1 例子 


表 9.2 已 列 出 半 参 数 回归 的 几 个 重要 例子 。 前 两 个 例子 通过 增加 未 设 定 成 分 
A(Z) ,或 者 通过 允许 未 设 定 变换 g(x 6B) 来 推广 线性 模型 x 8 ,这 将 在 下 面 详细 介 
绍 ,而 第 三 个 例子 是 对 前 两 个 例子 的 组 合 。 接 下 来 的 三 个 例子 在 应 用 统计 学 中 的 
应 用 比 经 济 计量 学 的 应 用 更 为 广泛 ,它们 是 通过 假定 回归 元 的 可 加 性 或 可 分 性 来 
减少 维 数 ,否则 就 是 非 参 数 模型 。 我 们 将 详 述 广义 可 加 模型 。 与 这 些 模型 有 关 的 

是 神经 网 络 模 型 (neural network modejls ) ; 参见 库 安 和 怀特 (Kuan and White， 
1994)。 最 后 一 个 例子 是 条 件 方差 的 一 种 灵活 模型 ,下 面 也 将 对 此 模型 加 以 详 述 。 
为 确保 半 参 数 模 型 是 可 识别 的 ,需要 小 心 谨慎 地 处 理 。 例 如 ,参见 单 指标 模型 的 讨 
论 。 除 估计 B 之 外 ,关注 内 容 还 在 于 边际 效应 上 , 比如 9ELy|x,z]j/ax。 


表 9.2 半 参 数 模型 :一 些 重要 例子 


名 称 模型 参数 非 参数 
偏 线性 ELy|x,z 一 XG 十 1(Cz) 8 AC*) 
单 指 标 E[ylx]=g(x’8) Je g(*) 
广义 侦 线 性 ELy|x,z|= g(x BA(2Z)) 8 gC(*), AC.) 
广义 可 加 的 Fly|lx|=ct 2 18; (zx;) 一 EC。) 
储 可 加 的 ELy|x,z|=x Bc 2 gj (zj) 8 gi(*) 
投影 寻 踪 ELy|x 一 之 产 18 0 ) B; gi(*) 
异 方 差 线 性 的 ELy|xj=xfB; VLylx]=0 (x%) B o(°) 


9.7.2 兴 参 数 信 计量 的 效率 


在 前 述 几 个 重要 例子 的 半 参 数 模型 结果 之 前 ,我 们 考察 通过 半 参 数 方法 而 不 
是 参数 方法 进行 估计 时 有 效 性 的 损失 。 

我 们 在 这 里 的 概述 沿 着 鲁 宾 逊 CRobinson，1998b) 的 线索 ,他 曾 考 察 具 有 参数 
成 分 ( 记 为 B) 与 非 参 数 成 分 ( 记 为 C) 的 半 参 数 模 型 , 非 参 数 成 分 G 依赖 于 无 限 多 
个 元 余 参 数 。G 的 一 些 例 子 包 括 服从 对 称 分 布 的 iid 误 善 分布 形状 ,以 及 在 9.7. 4 
节 将 由 式 (9. 7. 3) 给 出 的 单 指标 函数 g(*)。 估 计量 6=6(c) ,其 中 ,G 表 示 G 的 非 
参数 估计 量 。 

原则 上 讲 ,一 个 估计 量 如 是 适应 的 (adaptive) ,是 指 在 通过 非 参 数 方法 估计 G 
时 无 有 效 性 损失 ,所 以 : 


VN(B- 8) SN[0, Vo] 


.9 半 参 数 方法 


i 


其 中 ,Ve 表示 有 所 考虑 的 特定 类 中 任何 形状 函数 G 的 协 方差 矩阵 。 在 似 然 框架 下 ， 
Ve 是 殉 菜 默 一 劳 (Cramer - Rao) 下界 。 在 二 阶 窍 背景 下 ,Vec 是 由 高 斯 一 马尔 可 
夫 和 定理 或 推广 形式 譬如 GMM 得 出 的 。 适 应 估计 量 的 一 个 重要 例子 是 ,含有 设 定 
条 件 均 值 函 数 的 且 含 有 蜡 方差 性 的 未 知 函 数 形式 的 估计 。 

理论 上 ,如 果 估 计量 B 不 是 适应 的 ,那么 接 下 来 的 最 佳 最 优 性 质 会 使 该 估计 量 
达到 半 参 数 有 效 界 (semiparametric efficiency bounds) Ve ,所 以 : 


VN(B— 8) 全 NT[0， Ve ] 


其 中 ,Ve 表示 克 菜 轩 ! 一 劳 下 界 的 推广 或 者 它 的 二 阶 矩 类 似 形式 ,该 二 阶 矩 类 似 形 
式 提 供 了 给 定 设 定 半 参 数 模型 时 可 能 的 最 小 方差 矩阵 。 对 于 适应 估计 量 来 说 ， 
Ve 二 Vo, 但 是 通常 VE 大 于 Ve。 半 参数 有 效 性 界 将 在 9. 7. 8 节 引 入 。 它 们 仅仅 
在 某 些 半 参 数 设置 下 能 获得 ,并 且 甚 至 当 它 们 是 已 知 的 时 候 , 不 存在 任何 一 个 达到 
-此 界 的 估计 量 。 达 到 此 界 的 一 个 例子 是 , 克 革 因 和 斯 帕 迪 (Klein and Spady， 
1993) 的 二 值 选 择 模型 估计 量 ( 参 见 14. 7.4 节 )。 

倘若 半 参 数 有 效 性 界 没 有 达到 或 不 是 已 知 的 , 则 接 下 来 的 最 佳 性 质 是 , 当 Ve 
大 于 Vi 时 ,VN( BB) 全 NM[0， Vi], 这 使 进行 通常 统计 推断 成 为 可 能 。 更 一 
般 地 讲 , VN(B 一 B) 二 0O,(1) ,但 不 必 是 正 态 分 布 。 最 后 ,一 致 的 但 小 于 VN 一 致 的 
估计 量具 有 性 质 N'(B 一 8B) 二 0O,(1), 其 中 ,xr 一 0. 5。 通 常 ,不 能 得 到 渐 近 正 态 分 
布 。 当 对 参数 与 非 参 数 部 分 同等 处 理 时 ,就 出 现 这 种 情况 ,因而 在 6 与 G 上 共同 
达到 极 大 化 。 存 在 许多 例子 ,尤其 是 在 离散 选择 模型 与 截取 选择 模型 之 中 。 

尽管 半 参 数 估 计量 具有 潜在 无 效 性 ,但 它们 仍 是 引 人 注 目的 ,因为 在 完全 参数 
佑 计量 是 非 一 致 的 背景 下 , 半 参 数 估计 量 仍 保持 一 致 性。 鲍威尔 (Powell，1994) 
给 出 一 张 表 格 ,并 阅 述 一 系列 半 参 数 模型 的 一 致 性 存在 ,以 及 VN 一 致 淅 近 正 态 估 
计量 的 归纳 总 结 。 


9.7.3 仿 线 性 模型 


偏 线 性 模型 [171(partially linear model) 是 将 条 件 均 值 设 定 成 为 通常 线性 回归 
阴 数 加 一 个 未 设 定 的 非 线 性 成 分 ,因此 有 : 


El ylx,z|=x GA(z) (9. 34) 
其 中 , 纯 量 函数 X(*) 表 示 未 设 定 的 ， 
一 个 例子 是 需求 函数 关于 弹性 的 俩 计 , 其 中 ,z 反映 出 一 天 时 间或 天 气 指示 变 
量 , 诸 如 温度 。 第 二 个 例子 是 16. 5 节 给 出 的 样本 选择 模型 。 由 于 省 略 变量 仿 倚 的 
缘故 ,所 以 一 旦 忽略 X(z) ,就 会 导致 非 一 致 的 B ,除非 CovLx,A(Cz) 一 0。 在 一 些 应 
用 中 ,关注 内 容 在 于 B.A(z) 或 者 两 者 都 有 。 对 ELy|x,zj 进行 完全 非 参 数 估计 是 
可 行 的 , 却 会 使 8 出 现 小 于 VN 一 致 估计 的 情况 。 


[C12 又 称 为 部 分 线性 模型 。 一 一 译 者 注 


微观 经 济 计量 学 


鲁 宾 逊 差分 估计 量 
不 过 ,和 鲁 宾 进 (Robinson，1988a) 曾 经 提出 下 述 方 法 。 回 归 模 型 列 含 : 


y 一 X [BTA(Z) au 

其 中 ,误差 x 一 y 一 ELy|x,zj。 反 之 ,这 缆 含 ， 

ELy|z] 王 ELxlzj] 十 1(z) 
这 是 因为 ELu|x,zj| 二 0 更 含 ElLu|zj 二 0。 一 旦 对 这 两 个 式 子 相 减 , 得 到 : 

y 一 ELy|zZ] 一 (X 一 ELx|z]) 9 十 zx (9. 35 ) 
式 (9. 35) 中 的 条 件 矩 是 未 知 的 ,但 它们 却 能 用 非 参 数 佑 计 人 代替 。 
因而 , 鲁 宾 撑 提出 ， 
yi—7hyi = (xX—mhy;) Fv (9. 36) 


的 OLS 估计 ,其 中 , 议 y; 与 名 ;分别 表示 来 自 y; 与 对 z; 的 非 参 数 回 归 的 预测 值 。 


给 定 关 于 i 的 独立 性 ,假定 wu 是 iid [0,e] 的 , 式 (9. 36) 中 B 的 OLS 估计 量 是 VN 


VN( Br — PB) SN|0,0 (plim > (x — ELx:; |z; ]) (x — ElLx:; | a ) | 


不 对 (Zz) 进行 设 定 ,会 导致 有 效 性 损失 ,尽管 当 E[Lx|zj 关 于 2z 是 线性 的 时 , 陈 没 有 
损失 。 为 了 估计 VL [Bre], 直接 用 (x 一 zh ) 代 兰 (x; 一 ELx zj)。 其 渐 近 结论 能 推 
广 到 异 方差 性 误差 上 ,在 此 情况 下 ,人 们 刚好 使 用 源 目 OLS 回归 (9. 36) 的 通常 
艾 克 一 怀特 标准 误差 。 由 于 X(z) 王 EL[y|z2] 一 ELxlz]'8 ,所 以 它 可 由 A(z) 二 
jx 一 thw 一致 地 加 以 估计 。 

人 们 能 使 用 各 种 非 参 数 估 计量 碗 ,与 mx 。 和 鲁 宾 逊 (Robinson，1988a) 使 用 要 
求 收 钙 速率 不 低 于 N- 的 核 估计 ,因此 , 当 z 的 维 数 很 大 时 ,就 需要 过 度 光 滑 的 或 
者 较 高 阶 的 核 ; 参 见 帕 甘 和 乌拉 (Pagan and Ullah，1999, 第 205 页 )。 还 注意 到 ， 
核 估 计量 可 能 需要 加 以 修饰 (参见 9. 5. 3 节 )。 

其 他 估计 量 

在 偏 线性 模型 中 , 几 种 其 他 方法 会 得 到 8 的 VN 一致 估 计 值 。 斯 修 克 曼 
(Speckman，1988) 还 曾经 用 过 核 。 恩 格 尔 等 人 (Engle et al. ，1986) 使 用 三 次 光滑 
样本 佑 计量 的 推广 。 安德鲁 斯 (Andrews，1991 7) 阐述 了 y> 对 x 的 回归 以 及 9. 6. 4 
节 给 出 的 关于 (Zz) 的 序列 近似 。 亚 特 丰 (Yatchew，1997) 闸 述 了 简单 差分 估计 量 。 


9.7.4 单 指 标 模 型 


单 指标 模型 (single-index model) 是 将 条 件 均 值 设 定 成 回归 元 线性 组 合 的 一 种 
未 知 纯 量 函 数 , 满足 : 


E[ ylx|= (x’8) (9. 37) 
其 中 , 纯 量 函数 g(*) 是 未 设 定 的 。 单 指 标 模型 的 优点 已 在 5. 2. 4 市 阐述 过 。 这 里 的 


.4 半 参 数 方法 


Tr Mp 


疯 数 g(，) 可 从 数据 中 获得 ,不 过 ,在 前 面 一 些 例子 中 , 则 设 定 E[y|x] 二 exp(x’6)。 

识别 

市 村 (Ichimura, 1993) 已 经 阐述 单 指标 模型 的 识别 条 件 (identification condi- 
tions) 。 对 于 未 知 力 数 g(*) 来 说 , 单 指标 模型 3 是 可 识别 的 ,至 多 仅 差 一 个 位 置 与 
标 度 。 为 了 理解 这 一 点 ,注意 到 ,就 纯 量 ”而 言 ,函数 g (a 十 bv) 总 能 表述 成 g(v)， 
因而 函数 g Co 二 OoxG) 等 价 于 gxXG)。 此 外 ,g() 必 须 是 可 微 的 。 在 最 简单 情况 
下 ,所 有 估计 量 都 是 连续 的 。 相 反 , 如 果 某 些 回归 元 是 离散 的 ,那么 至 少 有 一 个 回 
归 元 必须 是 连续 的 ,而 且 当 g(*) 是 单调 函数 时 ,就 能 达到 8 的 界 。 

平均 导数 估计 量 

对 于 连续 回归 元 来 说 ,斯 托 克 (Stoker，1986) 曾 经 发 现 , 如 果 条 件 均 值 是 单 指 
标的 ,那么 条 件 均 值 的 平均 导数 向 量 就 能 确定 8, 至 多 仅 差 一 个 标 度 而 已 ,因为 就 
m(x; ) 二 g(xiB ) 而 言 , 有 : 


9m( xX) / / 
6= ES |=Elg’'(xB)]8 (9. 38) 


对 于 任何 函数 站 (x) ,EL9h(C(x)/9x| 二 一 E[Lh(x)s(x)], 其 中 ,s (x) 二 9 1n f(x)/9x 一 
了 (3)/f(%) ,而 f(x) 表 示 xX 的 密度 。 因 而 : 


6 =— Elm(x)s(x) | =— E[E[y | x|s(x)| (9. 39) 
由 此 可 得 ,通过 平均 导数 估计 量 [ average derivative (AD) estimator |. 


~N 
Bn =— > yi) (9. 40) 
;二 1 


能 估计 6, 从 而 估计 出 8, 只 是 至 多 差 一 个 标 度 ,其 中 ,5 (x;) 二 了 (x;)/f(x;) 能 通过 
xi 密度 的 核 估计 及 其 一 阶 导 数 得 到 估计 。 该 估计 量 5 是 VN 一 致 的 ,而 且 其 渐 近 
正 态 分 布 已 经 由 哈 德 尔 和 斯 托 克 (Hirdle and Stoker，1989) 推 导出 。 通 过 y; 对 
xi6 的 非 参 数 回归 ,估计 出 函数 g(.)。 注 意 到 ,不 管 单 指标 模型 是 否 有 联系 ,6 都 
给 出 ELm (x) 的 一 个 估计 值 。 z 

6 Ap 的 一 个 弱点 是 ,如 果 F(x;) 很 小 , 则 5Cx;) 非 常 大 。 一 种 可 能 性 是 , 当 f(x;) 
很 小 时 ,就 要 进行 修饰 。 不 过 ,鲍威尔 、 斯 托 克 和 和 斯 托 克 (Powell，Stock，and Stoker， 
1989) 发 现 ,结果 式 (9. 38) 可 推广 到 含有 6 三 ELw(x)m (x) | 的 加 权 导 数 上 。 特 别 
地 ,选取 wx) 二 f(xX) 会 方便 ,从 而 得 到 密度 加 权 平 均 导 数 估计 量 [L density weighted 
average derivative (DWAD) estimator | 。 


6 pway =— 2) yf (%) (9. 41) 
该 式 不 再 用 f(x;) 除 。 进 而 ,得 到 8 的 VN 一 致 的 且 渐 近 正 态 的 估计 值 ,只 是 至 多 


差 一 个 标 度 而 已 。 例 如 , 如果 8 的 第 一 个 分 量 被 正规 化 为 1, 那 么 对 于 ;二 1, 有 
B=1 有 pb,=6,/0. 


微观 经 济 计 量 学 


这 些 方 法 都 要 求 连续 回归 元 ,从 而 导数 存在 。 和 霍 罗 威 菊 和 哈 德 尔 (Horowitz 
and Hirdle，1996) 图 述 过 对 离散 回归 元 的 推广 。 

半 参 数 最 小 二 乘法 

一 种 可 供 选 择 的 估计 量 是 由 市 村 (Ichimura，1993) 提 出 的 单 指 标 模型 。 若 以 
假定 g(*) 是 已 知 的 开始 ,在 此 情况 下 , 8 的 WLS 佑 计量 是 对 


N 
SNP) = HO wy — gpB)) 
;一 1 


求 极 小 值 。 对 于 未 知 g(") 来 说 ,市 村 提出 用 非 参数 估计 值 8(x;B ) 代 替 g(xiB) ,得 
出 加 权 半 参数 最 小 二 乘法 [Lweighted semiparametric least-squares (WSLS ) estima- 
torj 估 计量 Cuss , 它 对 


N 
CNLOG) 一 Nx) wz) Cy, 一 应 (XiG)) 
;二 1 


求 极 小 值 , 其 中 ,r(Czi) 表 示 修 饰 函 数 , 当 纯 量 %B 的 核 回归 估计 值 很 小 时 ,rCz ) 就 
省 略 了 一 些 观测 值 ,而 &(xtB) 表 示 来 自 y; 对 xiB8 的 回归 的 去 掉 一 个 的 核 估计 量 。 
这 是 8 的 VN 一 致 且 渐 近 正 态 估计 ,只 是 至 多 差 一 个 标 度 , 它 通常 比 DWAD 估计 
量 更 为 有 效 。 对 于 异 方 差 数 据 来 说 ,最 有 效 的 估计 量 是 与 可 行 的 GLS 相 类 似 的 佑 
计量 , 它 使 用 了 估计 加 权 函 数 包 ;(x) 二 1/6? ,其 中 ,6? 表示 由 9. 7. 6 节 中 式 (9. 43) 
给 出 的 核 估 计 , 这 里 ,二 y; 一 g(x/B) ,而 BB 可 由 满足 w;(x) 二 1 的 Q(B) 的 最 初 极 
小 化 而 获得 。 

通过 迭代 法 ,可 计算 WSLS 估计 量 。 若 以 初始 估计 量 ?开始 ,譬如 DWAD 
估计 量 的 第 一 个 分 量 被 正规 化 为 1!。 由 &(x1B) 的 核 估计 进而 Qy( BY ) 知 ,为 了 
获得 梯度 gy( 7?) 一 9QN (BD)/9B 1 ,要 扰动 BY, 从 而 得 到 更 新 ?二 GD 十 
AvwgN(CBD ) ,等 等 。 特 别 地 , 当 Qn (CB) 是 非 凸 且 多 峰 的 时 候 , 这 个 估计 量 在 计算 上 
与 DWAD 估计 量 相 比 ,就 显得 相当 困难 。 


9.7.5 广义 加 法 模型 


广义 加 法 模型 (generalized additive models) 设 定 EL[y|xj 二 g(x) 十 … 十 gx (zx)， 
即 完全 非 参 数 模 型 E[y|xj 二 g(x ，,…，gi) 的 一 种 特殊 化 。 这 种 特殊 化 导致 外 估 
计 的 子 函数 &; (x; ) 以 一 维 非 参 数 回 归 的 速率 收敛 ,而 不 是 以 & 维 非 参 数 回 归 的 较 
低速 率 收 钙 。 

估计 这 类 模型 已 有 完善 的 方法 [参见 黑 斯 蒂 和 蒂 伯 沙拉 尼 (Hastie and Tib- 
sharani，1990)]。 在 一 些 统计 软件 包 中 诸如 S-Plus, 这 是 上 自动 实施 的 。 被 估计 的 
子 函 数 &; (xz;) 对 xz; 的 曲线 勾画 出 zi 关于 ELy|xj 的 边际 效应 ,因而 加 法 模型 能 提 
供用 于 探索 性 数据 分 析 的 有 益 工 具 。 这 种 模型 在 微观 经 济 计量 学 中 较 少 使 用 ,部 
分 原因 在 于 ,诸如 删 失 、 截 取 以 及 离散 结果 的 应 用 常常 会 导致 单 指标 模型 与 偏 线性 
模型 。 


9.7.6 蜡 方 着 线性 模型 
异 方差 线性 模型 (heteroskedastic linear model) 设 定 : 
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Elylxl=x 6 
VL y|x|=o (x) 


其 中 ,方差 函数 o2(,) 是 未 设 定 的 。 

在 现代 微观 经 济 计量 学 中 ,误差 为 异 方差 的 假设 是 标准 的 横 截 面 数据 的 假设 。 
通过 利用 OLS, 并 且 使 用 OLS 估计 量 方差 抢 阵 的 艾 克 一 怀特 (Eicker - White) 异 
方差 一 致 的 估计 ,人 们 能 获得 6 的 一 致 却 无 效 的 估计 。 克 拉 格 (Cragg，1983) 以 及 
雨 官 (Amemiya, 1983) 曾 经 提出 比 OLS 更 为 有 效 的 工具 变量 估计 量 , 但 它 仍 不 是 
完全 有 效 的。 里 然 可 行 GLS 已 经 提供 完全 有 效 的 二 阶 矩 估计 量 , 可 是 它 并 不 吸引 
人 ,因为 它 需 要 对 oo (Xx) 的 艺 数 形式 进行 设 定 , 辟 如 ox) 一 exp(xX 7Y )。 

鲁 宾 还 (Robinson，1987) 提 出 利用 二 = 二 o? (x;) 的 非 参 数 估计 量 的 FGLS 的 一 
种 变形 。 于 是 有 : 


N N 
[Bm 一 (DKX) (Dxiy:) 《9. 42) 
这 里 , 鲁 宣 逊 (Robinson，1987) 使 用 具有 均匀 权 数 的 到 的 &- NN 估计 量 , 所 以 : 


0i 一 D1 Na (Xi)) a (9. 43) 
其 中 , 六 = y; 一 x/BoLs 表 示 来 自 y; 对 工 ; 的 第 一 阶段 OLS 回归 的 残 差 ,而 Ni; (x%;) 表 
示 以 欧 几 里 德 范 数 接近 于 x; 的 x; 的 & 个 观测 值 集合 。 于 是 ,一 旦 假定 ;服从 iid 
[0, oCx;) |; 则 : 


N 


VNCBum —B) SN |0, (plim N22 s(x Wx ) | 


该 估计 量 是 适应 的 ,因为 它 达 到 高 斯 一 蕊 尔 可 夫 界 , 当 gi 已 知 时 , 它 与 GLS 估计 量 
一 样 有 效 。 通 过 (N -1 267 ?XXi) ! ,可 一 致 估计 出 其 方差 矩阵 。 

原则 上 ,还 可 使 用 (x;) 的 其 他 一 些 非 参 数 估 计量 ,可 是 卡 罗 尔 (Carroll， 
1982) 和 其 他 一 些 研 究 者 最 初 提出 使 用 of 的 核 估 计量 ,而且 发 现 ,对 有 效 性 证 明 仅 
仅 在 对 有 非常 强 的 约束 假设 下 才 是 可 能 的 。 鲁 宾 还 方法 可 被 推广 到 具有 非 线 
性 均值 函数 的 模型 。 


9.7.7 半 和 参数 MLE 


假定 y; 服从 iid, 并 具有 设 定 密度 f(y; jz,G8)。 一 般 地 讲 , 对 密度 销 误 设 定 会 
产生 非 一 致 参数 估计 值 。 加 伦 特 和 尼 奇 卡 (Gallant and Nychka，1987) 曾 经 提出 ， 
通过 关于 密度 F(y|x,G) 的 震级 数 展开 式 来 通 近 未 知 真实 密度 。 为 了 确保 正 密 
度 ,他 们 实际 上 使 用 f(y|x, BB) 的 平方 顶级 数 展 和 开 (squared power-series expan- 
sion) ,得 到 : 


(1) 原著 中 该 式 出 现 符号 上 的 错误 , 译 者 在 此 已 经 更 正 。 -一 - 译 者 注 
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2 
pylxsBa) = — Pe) fy Nx,8) 


(9. 44) 
| ‘pCzla)): fylz,B)q 


其 中 ,p(y|a) 表 示 y 的 第 p 阶 多 项 式 ,a 表示 多 项 式 的 系数 向 量 ,而 除 以 分 母 则 是 要 
确保 概率 积分 或 者 求 和 为 1 。B 与 a 的 估计 量 是 对 对 数 似 然 羡 > ,lnA (Cy;|x,B,a) 
求 极 大 值 。 该 方法 立刻 被 推广 到 多 元 变量 y; 上。 此 估计 量 被 称 为 半 非 参数 极 大 
似 然 估计 量 (seminonparametric maximum likelihood estimator) , 因为 它 是 一 个 非 
参数 估计 量 , 这 可 利用 与 极 大 似 然 估 计量 相同 的 方式 加 以 估计 。 加 伦 特 和 尼 奇 卡 
‘Gallant and Nychka, 1987) 已 经 证 明 , 在 相当 一 般 的 条 件 下 ,如 果 多 项 式 的 阶 数 p 
随 者 样本 量 N 以 适当 速率 递增 ,那么 估计 量 会 得 到 密度 的 一 致 估计 值 。 

为 了 获得 任何 特殊 数据 的 灵活 分 布 ,这 一 结果 提供 了 利用 式 (9. 44) 的 一 种 坚 
实 基础 。 奋 关于 基准 密度 F(y|x,G) 的 多 项 式 序列 p(y|a) 是 正 交 的 或 标准 正 交 
多 项 式 序列 (参见 12. 3. 1 节 ), 则 该 方法 特别 简单 ,从 而 分 母 中 的 正规 化 因子 能 直 
接 构 造 。 利 用 信息 准则 选取 多 项 式 的 阶 , 就 惩罚 模型 的 测量 而 言 , 其 复杂 性 大 于 实 
际 应 用 时 的 AIC。 当 人 们 忽略 对 多 项 式 阶 的 数据 相依 选取 ,同时 假定 得 到 的 密度 
h,《y|x,B,a ) 被 正确 设 定 , 通 常 的 ML 统计 推断 就 是 可 行 的 。 对 于 计数 回归 来 
说 ,该 方法 的 例子 由 卡 梅 伦 和 约翰 森 CCameron and Johansson，1997) 给 出 。 


9.7.8 举 参 数 有 效 兴 


半 参 数 有 效 界 (semiparametric efficiency bounds) 是 将 有 效 性 壁 如 克 菜 默 一 劳 
或 者 高 斯 一 马尔 可 夫 定 理 推广 到 数据 生成 过 程 (dgp) 具 有 非 参 数 成 分 的 情况 。 最 
佳 半 参数 方法 就 达到 了 这 个 有 效 界 。 

我 们 用 8 表示 想 要 估计 的 参数 ,可 能 包括 方差 成 分 譬如 ,而 用 表示 元 余 参 
数 。 为 了 简单 起 见 ,我们 考察 具有 非 参 数 成 分 的 极 大 似 然 估计 。 

我 们 以 完全 参数 情况 开始 。MLE(C B, 千 ) 对 LCB,) 二 In LCB, 人 0) 求 极 大 值 。 


设 0 二 (B,D ,并 设 及 表示 式 (5. 43) 定 义 的 信息 和 矩阵。 于 是 ,vV 丙 (6 一 9) 人 NT0， 
Tw ]。 对 于 VN(B 一 B) 来 说 ,; 当 9 已 知 时 ,7 的 分 块 反 演 导 致 
V'=(Zy ITI, Tr) | (9. 45) 


作为 估计 8 的 有 效 界 。 当 未 知 时 ,存在 有 效 性 损失 ,除非 信息 矩阵 是 分 块 对 角 
的 ,因此 ,Zo 一 0 且 方 差 简 化 成 Ty 。 

现在 ,考虑 对 非 参 数 情况 的 推广 。 假 定 我 们 具有 参数 子 模型 ,比如 说 Cu(CO)， 
这 只 涉及 B。 考 察 对 某 一 个 了 值 嵌 人 Co(0C9) 的 全 部 可 能 参数 模型 LC (B,n) 的 族 。 
在 所 有 可 能 参数 模型 C(G,?) 上, 半 参 数 有 效 界 是 式 (9. 45) 给 出 的 V* 的 最 大 值 ， 
可 是 这 个 界 难 以 求 出 。 


sa 一 Se 一 上 Lse |s, | 


进行 简化 是 可 能 的 ,其 中 ,ss 表示 得 分 3C/3a8, 而 5 表示 剔除 刀 之 后 8 的 得 分 。 对 
于 有 限 维 的 来 说 ,可 以 证 明 , ELN -$4 5 二 V* 。 不 过 ,这 里 的 Dg 是 无 限 维 的 。 


.9 半 参 数 方法 


假定 数据 为 iid 的 ,并 设 se 表示 和 式 中 导致 得 分 s 的 第 i 个 分 量 。 贝 根 等 人 
(Begun et al. ，1983) 把 切 集 (tangent set) 定 义 成 s 的 所 有 线性 组 合 的 集合 。 当 切 
集 是 线性 的 旦 是 闭 的 , (9. 45) 式 V* 的 最 大 值 等 于 ， 


9 一 (plim N sg 8e) -1 一 (ELSa se |]) 
于 是 ,矩阵 Q 是 半 参 数 有 效 界 。 
在 应 用 时 ,人 们 首先 求 出 s, 一 ;sw 。 然 后 求 ELss; |s;; j ,这 就 需要 辟 如 误差 对 
称 性 的 假设 ,而 这 些 假设 是 对 所 要 考察 的 半 参 数 模型 类 上 施加 的 约束 。 这 就 得 出 
sz， 从 而 得 到 @。 对 于 更 详细 内 容 及 应 用 ,参见 纽 韦 (Newey，1990) . 帕 甘 和 乌拉 
(Pagan and Ullah, 1999) 以 及 蹇 韦 林 尼 和 特 里 帕 蒂 (Severini and Tripathi，2001) 。 


9.8 核 估计 量 均 值 与 方差 推导 


非 参 数 估计 需要 在 光滑 性 (方差 ) 与 偏 倚 ( 均 值 ) 之 间 进 行 权 衡 。 这 里 ,我 们 推 
导 核 密度 与 核 回 归 估 计量 的 均值 以 及 方差 。 推 导 将 沿 着 李 明 宁 (M.， J. Lee， 
1996) 的 那些 线索 而 展开 。 


9. 8.1 巷 黎 度 侍 计量 均 倡 与 方差 
由 于 zz; 是 iid 的 , 故 求 和 式 中 的 每 一 项 都 具有 相同 期 望 值 ,并 且 ， 
ej sr (ee 
ie) 
通过 对 z 二 (zx 一 xo)/h 进行 变量 变换 ,因此 xz 二 xo 十 hz, 从 而 dx/dz= 二 h ,得 到 : 
EL[f(z0)] = |KG2) f(ro t+ he)ds 
由 f(zxo 十 hz) 在 f(xo) 处 的 二 阶 泰勒 级 数 展开 式 , 得 到 、 
ELF(r0)]= |K(z) (flz0) tf rh tr (Che) | 
= fro)| KO)de + hf’ Cx0) 2K Cdz + 5" C0) | 2K de 
由 于 核 K(z) 积 分 为 1, 故 上 式 简 化 为 : 
ELfCz0)]— fro) = hf’ Cx0) |zK C2)dz + DR’ (ro) | 2 Kz) de 
如 果 除 了 核 满足 |zK (x)dz 一 0 外 ,还 具有 9. 3. 3 节 条件 (ii) 中 所 做 的 假定 ,同时 / 


b(zxo) ,其 中 ,b(zo) 已 在 式 (9. 4) 中 定义 。 
为 了 获得 f(xo) 的 方差 ,以 下 面 注意 到 的 内 容 开 始 : 若 y; 是 iid 的 , 则 V[3]== 
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NIVLy]= 王 NEEY 一 N-!(E[y])?。 因 而 : 


VIF NE[ (HK (SF)) -NR(E[AK (Se)]) 
现在 ,通过 变量 变化 与 一 阶 泰勒 级 数 展开 


E| (ZK (<== )) |= | KY {fr0) tf ro)he}de 


= f(r)| Ke) de + f Cx0) 2K C2)’ de 
由 此 可 得 ， 
V [f(z)] = f(r)| Kz) de + Rf (C7) |zK (2)’ de 
Nh N 
一 二 | cr) 二 f(z0) | | 二 KCzade | ] 
当 有 >0 且 N 一 oo 时 ,这 由 第 一 项 来 控制 ,从 而 得 到 式 (9. 5)。 


9. 8.2 核 回 妇 估 计量 分 布 


我 们 想 要 获得 回归 元 zx; 的 分 布 ,而 x; 是 iid 的 且 具 有 密度 f(x)。 由 9. 5.1 
知 , 核 估计 量 是 一 种 加 权 平 均 Mm (xo ) 二 Di io yi ? 其 中 ; 核 权 数 TOiO.h 已 由 式 (9. 22 ) 
给 出 o 由 于 权 数 之 和 为 ] ， 所 以 有 m(xo)—m(rxo) 一 Di io,, (y:; 一 ZICZo ))。 将 式 


(C9. 15) 代 入 y; 中 ,并 且 如 同 核 密度 估计 量 一 样 用 VNE 去 正规 化 ,得 出 ， 
N 
Vv Nh (mm( zo) — Mm(xXo0)) — Vv Nh > wion mlxi) — m(.ro) 十 €;) (9. 46) 
1 二 | 


一 种 获得 式 (9. 46) 的 极限 分 布 方法 是 , 取 m(z;) 在 xo 附近 的 二 阶 泰勒 级 数 展 
开 。 这 种 方法 并 不 总 行 得 通 , 因 为 正规 化 的 缘故 ,其 权 数 之 和 为 1, 权 数 wo,i 变 得 
十 分 复杂 [参见 式 (9. 22)j]。 

不 过 ,我 们 遵循 比尔 恩 斯 (Bierens，1987, 第 106 一 108 页 ) 思 想 , 采 用 李 明 竺 
(Lee，1996 ,第 148 一 151 页 ) 的 方法 。 注 意 到 ,由 于 f(xo) 二 (Nh) SK (xz, 一 
zo)/h) ,所 以 加 权 晴 数 的 分 母 是 zx 的 密度 的 核 人 和 估计。 于 是 , 式 (9. 46) 变 为 : 





N 
DK (TE ) mr) 一 ma(zo) te)/ fro) 


Vv Nh mz) 一 加 (xzo)) 一 | 
| | VNA i =] 


(9. 47) 


我 们 把 变换 定理 (定理 A. 12) 用 于 式 (9. 47), 对 于 分 母 利 用 式 (9. 47) ,为 了 得 到 分 
子 的 极限 正 态 分 布 , 需 要 下 面 几 步 推导 : 


让 C7 To ) Gm) — mlzo) + ei) (9. 48) 


N 
A De ) Cmlxi) —m(zo)) 十 -到 


i 一 1 


下 


ir Mr 


考察 式 (9. 48) 中 的 第 一 个 和 式 ; 如 果 可 应 用 大 数 极限 定律 ,那么 它 将 依 概率 收 
敛 到 均值 . 


N 
E| -元 -KT 2) nC) 一 mn) : (9.49) 


= MK (5 二 名 )(m(z) mz) fr) dr 


— VNE | Kz) (mz hz) — m(zxo)) f(xo + he) dz 
一 - VNE | Kz) (hem’ (zo) 十 记 居 ze m (xo) ) ) Cf Cxo) 二 hzf' (xo)) dz 
—— A Nh (|K CDR Em Cx) f Cro) de 十 | Ka) Fh m (xo) fxo) dz 


= VNih’ (m Cz) f (70) 十 广 ml(zo) fro) )) | 二 KGz)dz 
~— VNEfCr bz,) 
其 中 ,6b6(xo) 已 由 式 (9. 23) 定 义 。 第 一 个 等 式 使 用 x; 为 iid 的 ;第 二 个 等 式 是 对 > 
做 一 个 变量 变换 zz 二 (x 一 zo)/h; 第 三 个 等 式 则 对 mx(zo 十 hz) 应 用 二 阶 泰勒 展开 ， 
并 对 f(zxo 十 hz) 应 用 一 阶 泰勒 级 数 展 开 ; 第 四 个 等 式 成 立 , 是 因为 给 定 控 制 其 他 项 
的 两 项 时 ,把 乘积 展开 成 四 项 | 例如 ,参见 李 明 宰 (Lee，1996 ,第 150 页 ) ]。 
现在 ,考察 式 (9.48) 中 的 第 二 个 和 式 ;显然 ,和 式 中 其 有 零 均 值 ,而 每 一 项 的 方 
差 在 省 略 下 标 后 变 成 : 
VIK (5 2) |= E| K’ | (9. 50) 
— = |K’ (= ?VEelz fr)dz 
- ee 4 hz lf + hz)dz 
pve ro Jf Cr) |K: (z) dz 


在 第 三 行 中 ,对 z 做 一 个 变量 变换 z= 二 (x 一 xo)/h, 有 是 dx 一 hdz, 同 时 今 h->0 来 得 
到 最 后 一 行 。 利 用 中 心 极限 定理 ,由 此 可 得 ， 


KEF kW V[elzxolf (zo) |K? Cz)de | (9.51) 
:=1 


当 把 式 (9. 49) 与 式 (9.51) 结合 起 来 , 我 们 得 出 在 式 (9.47) 中 定义 的 
VNACmzo) 一 m(zo)) 收 伍 于 1/f《zo) 信 的 NLvVNAf(xo)o(zo), VLelzxo] XX 
f(zxo)|K*(z)dz], 用 zs) 除 均值 ,并 用 f(zxo)? 除 方差, 得 到 式 (9. 24) 给 出 的 极 
限 分 布 。 


微观 经 济 计量 学 


rT er 


9.9 应 用 人 研究 


适合 于 各 种 用 途 的 回归 软件 日 趋 增多 ,这 为 单 变量 非 参 数 密度 估计 与 回归 提 
供 了 足够 的 方法 。 程 序 语言 XPlore 强调 非 参数 方法 以 及 画图 法 ;许多 方法 的 详细 
内 容 , 已 在 其 网 站 上 提供 。 

利用 建立 在 核 基础 上 的 核 密度 估计 ,诸如 高 斯 核 或 埃 帕 内 尼 科 夫 核 ,对 非 参 数 
单 变 量 密度 进行 估计 就 简单 易 行 。 容 易 计算 的 插值 估计, 为 带宽 提供 了 一 个 的 有 
益 起 点 ,比如 说 该 起 点 可 能 缩减 一 半 或 增 大 一 倍 , 这 要 视 其 改进 而 定 。 

各 不 管 带宽 选取 , 则 非 参 数 单 变量 回归 也 是 简单 易 行 的 。 如 果 回 归 函 数 在 端 
点 处 的 相对 无 侦 佑 计 值 是 人 们 所 期 望 的 ,那么 局 部 线性 回归 或 洛斯 估计 都 比 核 回 
归 要 好 。 关 于 带宽 的 插值 估计 相当 难以 获得 , 却 可 以 使 用 交叉 验证 (参见 9. 5. 3 
玉 ) ,以 及 条 住 散 点 图 和 拟 合 直线 。 人 们 期 望 的 光滑 性 程序 随 着 应 用 而 变化 。 对 于 
非 参 数 多 变量 回归 来 说 ,这 种 视力 观察 是 难以 做 到 的 。 

就 半 参 数 回 归 而 言 ,其 内 容 更 加 复杂 。 由 于 参数 成 分 的 典型 估计 包含 对 非 参 
数 成 分 的 一 种 平均 ,所 以 半 参 数 回归 需要 一 些 技巧 ,诸如 对 非 参 数 成 分 进行 修饰 与 
光滑 不 是 。 为 了 这 种 目的 ,人 们 通 第 运用 以 诸如 Gauss、Matlab Splus 或 XPlore 
语言 编写 的 特定 程序 。 对 于 非 参 数 估 计 成 分 来 说 ,使 用 快速 计算 算法 能 节省 相当 
多 的 计算 量 , 例 如 重新 分 级 与 调整 (binning and updating), 参 见 范 剑 青 和 吉 贝 尔 斯 
(Fan and Gijbels，1996) 以 及 哈 德尔 和 林 顿 (Hirdle and Linton，1994) 。 

有 时 ,所 有 方法 孝 需 要 对 市 宽 或 窗口 宽度 加 以 设 定 。 各 种 不 同 选取 会 导致 有 
限 样 本 出 现 不 同 的 估计 值 ,其 差异 相当 大 ,正如 本 章 中 的 一 些 图 形 所 阐述 的 那样 。 
与 之 相 比 ,在 完全 参数 和 框架 下 ,不同 研 究 者 通过 极 大 似 然 法 估计 同一 模型 都 将 得 到 
一 样 的 参数 佑 计 值 。 这 种 不 确定 性 是 对 非 参 数 方法 的 贬低 ,尽管 希望 是 在 半 参 数 
方法 中 至 少 影响 模型 的 参数 成 分 的 效果 或 许 是 很 小 的 。 


9. 10 ”文献 注释 


非 参 数 估 计 在 许多 统计 学 教科 书 中 得 到 了 很 好 曾 述 ,包括 范 剑 青 和 吉 贝 尔 斯 
(Fan and Gijbels，1996)。 和 鲁 珀 特 、 万 德 和 卡 罗 尔 (Ruppert,，Wand and Carroll， 
2003) 曾 经 阐述 许多 半 参 数 方 法 的 应 用 。 由 哈 德 尔 (Hirdle，1990) 、 李 明 宰 (M. J. 
Lee，1996) . 霍 罗 维 茨 (Horowitz，1998b) .由 甘 和 乌拉 (Pagan and Ullah，1999) 以 
及 亚 特 丘 (Yatchew，2003) 扬 与 的 经 济 计量 学 教科 书 既 洱 盖 非 参 数 佑 计 , 又 滴 盖 半 
参数 估计 。 亚 特 乒 (Yatchew，2003) 的 书 则 是 面 回 应 用 经 济 计量 家 而 摆 写 的 。 他 
强调 偏 线 性 模型 与 单 指 标 模型 ,还 有 上 述 模 型 诸如 置信 区 间 计 算 的 实际 问题 。 

9.3 核 密 度 估计 的 重要 早期 文献 是 , 罗 森 布 拉 特 (Rosenblatt，1956) 和 帕 曾 
(Parzen，1962) 。 西 尔 熙 曼 (Silverman 1986) 的 书 是 非 参 数 密 度 佑 计 方 面 的 经 典 书 。 

9.4 对 非 参 数 佑 计量 的 最 优 收 伍 速 率 进 行 更 一 般 的 人 研究 由 期 通 (Stone， 
1980) 给 出 。 


.9 半 参 数 方法 


9.5 核 回 归 估 计量 是 由 纳 达 雷 娅 (Nadaraya，1964) 与 沃 琳 (Watson，1964) 
提出 的 。 核 与 最 近邻 回归 的 一 个 非常 有 用 的 且 相 对 简单 的 综述 则 是 由 奥 尔 特 曼 
(Altman，1992) 给 出 。 统 计 学 文献 中 ,存在 许多 其 他 绿 述 。 哈 德尔 (Hirdle， 
1990, 第 5 章 ) 曾 经 对 带宽 选取 与 置信 区 间 提 供 了 详细 阐述 。 

9.6 关于 半 参 数 有 效 界 , 参 见 由 纽 书 (Newey，1990b) 撰 写 的 一 篇 综述 ,而 最 
新 的 论文 则 出 自 塞 韦 林 尼 和 特 里 帕 蒂 (Severini and Tripathi，2001) 。 早 期 的 经 济 
计量 应 用 由 张伯伦 CChamberlain，1987) 给 出 。 

9.6 非 参 数 局 部 回归 的 许多 方法 都 包含 在 斯 通 (Stone，1997) 的 论文 中 。 关 
于 序列 估计 量 , 参 抑 安 德 鲁 斯 (Andrews，1991) 与 纽 韦 (Newey，1997) 。 

9.7 经 济 计量 学 文献 关注 于 半 参 数 回 归 。 综 述 性 论文 包括 由 鲍威尔 
(Powell，1994) .和 鲁 室 还 (Robinson，1988b) 所 撰写 的 那些 论文 ,而 在 更 为 导论 性 水 
平 上 的 是 亚 特 丘 的 书 (Yatchew，1998) 。 本 书 的 其 他 一 些 地 方 璧 如 14.7 节 、15. 11 
节 、16.9 节 、20.5 节 以 及 23.8 节 都 曾 给 出 男 外 的 一 些 参 考 文献 。 贝 尔 马 , 梅 伦 伯 
格 以 及 范 ，。 索 斯 特 (Bellmare,，IMelenberg and Van Soest，2002) 做 出 了 一 项 应 用 
人 研究, 他们 阐述 过 几 种 半 参 数 方 法 。 


习题 


9-1 假定 我 们 利用 均匀 核 ( 人 参见 表 9. 1) ,满足 h==1 且 样 本 量 N 二 100, 可 获 
得 核 密度 估计 。 假 定 实 际 上 数据 x 一 ML0，1j。 

(a) 利用 式 (9. 4) ,计算 核 密度 估计 在 zo 三 1 的 侦 倚 。 

(b) 此 偏 傈 相对 于 真实 值 4(1) 而 言 , 显 得 大 吗 ? 其 中 ,%( 表示 标准 正 态 pdf。 

Cc) 利用 式 (9. 5) ,计算 核 密 度 估计 在 zo 王 1 的 方差 。 

(d) 对 于 方差 和 偏 倚 平方 , 哪 一 个 对 MSE 在 z 三 1 的 值 做 出 更 大 贡献 ? 

(e) 利用 9. 3.7 节 的 结果 ,给 出 建立 在 核 密 度 估计 值 f(1) 基 础 上 的 密度 在 
zo 二 1 处 的 95 上 置信 区 间 。 

(f) 对 本 题 而 言 , 由 式 (9. 10) ,什么 值 是 最 优 带 宽 h*? 

9 -2 假定 我 们 利用 均匀 核 (参见 表 9. 1) ,满足 h==1 且 样 本 量 N= 二 100, 可 获 
得 核 密度 估计 。 假 定数 据 实际 上 zx~NML0, 1j], 并 且 条 件 均 值 晴 数 是 m(x) 一 x 。 

(a) 利用 式 (9. 23) ,计算 核 回 归 估 计 在 zo 王 1 的 但 倚 。 

(b) 此 偏 倚 相 对 于 真实 性 mm(1) 王 1 而 言 显 得 大 吗 ? 

(c) 利用 式 (9. 24) ,计算 核 回 归 估 计 在 zo 王 1 的 方差 。 

(d) 对 于 方差 和 偏 倚 平 方 , 哪 一 个 对 MSE 在 xo 二 1 处 的 值 做 出 贡献 更 大 ? 

(e) 利用 9. 5.4 节 的 结果 ,给 出 建立 在 核 回归 估 计 值 mx(1) 基 础 上 ELy|xo 二 1 
的 95% 置 信和 区间 。 

9 - 3 假定 这 一 问题 可 使 用 非 参数 密度 估计 方案 。 运 用 4. 6. 4 蔬 关 于 健康 消 
费 数据 。 利 用 具有 高 斯 核 ( 如 果 有 的 ) 的 核 密度 估计 。 

(a) 通过 目测 观察 ,并 用 试 错 法 选取 合适 带宽 , 求 关于 健康 销 费 的 核 密度 佑 
计 , 叙 述 带 宽 的 选取 。 
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(b) 通过 目测 观察 ,并 用 试 错 法 选取 合适 带宽 , 求 健康 消费 的 自然 对 数 的 核 密 
度 估 计 。 氢 述 市 宽 的 选取 。 

(c) 把 你 在 Cb) 部 分 的 解答 与 适当 的 直方 图 对 比 。 

(d) 如 果 可 能 ,将 拟 合 正 态 密度 至 放 到 与 来 和 目 (b) 部 分 核 密 度 估计 的 同一 图 形 
上 。 健 康 消 费 看 起 来 会 是 对 数 正 态 分布 吗 ? 

9-4 假定 这 个 问题 可 使 用 核 回 归 方 案 或 其 他 非 参 数 光 滑 子 。 运 用 4.6.4 节 
关于 健康 消费 (y) 的 自然 对 数 与 总 消费 (zx) 的 自然 对 数 数据 的 完整 样本 。 

(a) 一 旦 通过 目测 观察 ,并 用 试 错 法 选取 良好 的 带宽 , 求 关 于 健康 消费 的 核 回 
归 估 计 5114。 叙 述 带 宽 的 选取 。 

(b) 给 定 (a) 部 分 ,健康 看 起 来 会 是 正 态 商 品 吗 ? 

(c) 给 定 (a) 部 分 ,健康 看 起 来 会 是 奢侈 商品 吗 ? 

(d) 把 你 的 非 参 数 估 计 与 来 自 线性 回归 及 二 次 回归 的 预测 进行 比较 。 


[1] 原著 中 这 里 为 “ 核 同 归 密 上 度 估计 ”. 应 为 “ 核 回 归 估计 ”, 已 改 。 一 一 译 者 注 
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10.1 引 论 


第 5 章 和 第 6 竟 已 经 阐述 ,把 估计 量 的 一 致 性 及 渐 近 分 布 定义 成 最 优化 问题 
解 的 有 关 理 论 结果 。 一 个 更 为 实际 的 问题 是 ,如 何 获 得 数值 最 优 解 , 也 就 是 说 , 当 
估计 量 不 存在 显 式 公式 时 如 何 计算 参数 估计 量 , 这 将 构成 本 章 主题 。 

对 于 应 用 研究 者 来 说 ,标准 的 非 线性 模型 比如 logit、Tobit、 比 例 风 险 以 及 泊 松 
模型 的 佑 讨 , 看 起 来 似乎 与 OLS 模型 的 估计 并 没有 什么 差异 。 利 用 统计 软件 可 获 
得 佑 计 值 ,并 报告 系数 .标准 误差 :统计 量 以 及 户 值 。 一 般 地 讲 , 只 有 因 OLS 失 
效 , 壁 如 出 现 多 重 共 线 性 或 不 正确 的 数据 输入 , 才 会 引发 需要 计算 的 问题 。 

对 那些 缺少 标准 的 非 线 性 模型 包括 标准 模型 的 稍微 变形 进行 估计 ,都 需要 编 
与 程序 。 这 在 标准 的 统计 软件 中 或 许 是 可 行 的 。 否 则 ,就 要 使 用 编程 语言 。 尤 其 
是 在 后 一 种 情况 下 ,必须 具备 最 优化 方法 的 知识 。 

10. 2 上 节 对 最 优化 给 出 一 般 性 研究 。 各 种 各 样 的 迭代 法 包括 牛顿 -- 拉 夫 和 森 
(Newton - Raphson) .高 斯 一 牛顿 (Gauss - Newton) 梯 度 法 将 在 10. 3 节 加 以 盖 
述 。 一 些 实际 问题 , 像 某 些 普遍 易 犯 的 错误 , 则 在 10. 4 节 讨 论 。 当 用 最 优化 方法 
不 能 得 出 参数 估计 值 时 ,这 些 间 题 就 显得 尤其 有 意义 。 


10.2 一 般 性 研究 


微观 经 济 计量 分 析 时 常 建立 在 估计 量 6 基础 上 ,该 估计 量 针 对 随机 目标 函数 
Qn (9) 求 极 大 值 ,6 通常 是 一 阶 条 件 9QN (8) /939 二 0 的 解 。 求 极 小 值 问 题 可 通过 用 
一 1 乘 以 目标 函数 而 改 为 求 极 大 值 。 在 非 线 性 应 用 即 gq 个 方程 关于 4 个 未 知 6 的 
非 线性 方程 组 中 ,一 阶 条 件 通常 不 存在 显 式 解 。 

通常 格 点 搜索 程序 行 不 通 , 而 迭代 法 即 通常 的 梯度 法 却 行 之 有 效 。 


10. 2.1 区 点 搜索 


就 格 点 搜索 法 (grid starch methods) 而 言 ,程序 (procedure) 为 沿 着 格 点 选取 许 
多 9 的 不 同 值 ,对 这 些 8 值 中 的 每 一 个 都 要 进行 计算 Qv(6) ,并 选择 估计 量 9 作为 
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-= 


使 Qn (09) (局 部 或 全 局 依赖 于 应 用 问题 ) 成 为 最 大 值 的 那 一 个 值 。 

如 果 能 选取 足够 精细 的 网 格 ,那么 这 种 方法 总 会 起 作用 。 然 而 , 若 没 有 进一步 
限制 ,选取 足够 精细 的 网 格 ,通常 是 不 切实 际 的 。 例 如 , 当 有 10 个 参数 要 估计 时 ， 
网 格 对 于 每 一 个 参数 都 恰好 在 10 个 点 即 非常 稀疏 网 格 上 进行 计算 ,这 将 会 有 101' 
或 100 亿 个 计算 值 。 

不 过 , 格 扣 搜 索 法 在 下 面 一 些 应 用 中 却 是 有 益 的 , 即 格 点 搜索 只 需 在 参数 的 一 
个 子 集 上 加 以 搜索 计算 。 为 了 在 使 用 迭代 法 时 ,人 们 不 必 担 忧 出 现 多 重 最 大 值 问 
题 , 格 点 搜索 要 通过 检查 响应 面 [11(response surface) 来 验证 这 一 点 。 例 如 ,许多 
时 间 序 列 软 件 对 具有 AR(1) 误 差 的 回归 模型 的 纯 量 AR(1) 系 数 就 是 这 样 做 的 。 
第 二 个 例子 是 ,对 髓 套 logit 模型 (参见 15. 6 节 ) 的 纯 量 相 容 系数 (inclusive parameter) 
实施 格 点 搜索 。 当 然 , 奇 其 他 什么 方法 都 不 起 作用 , 则 必须 用 格 点 搜索 法 。 


10.2.2 送 代 洗 


实际 上 ,所 有 微观 经 济 计量 在 应 用 时 反而 都 使 用 壕 代 法 (iterative methods ) 。 
这 些 迭 代 法 利用 特定 规则 ,不 渐 更 新 当前 8 估计 值 。 已 知 第 ;次 估计 值 0,, 壕 代 法 
提供 可 产生 新 估计 值 9.+1 的 一 个 规则 ,其 中 ,6, 表示 第 : 次 估计 值 ,而 不 是 8 的 第 
个 成 分 。 原 则 上 讲 , 新 的 估计 值 会 向 着 最 大 值 运动 ,因而 有 Qv (06,41) 汪 Qw (90,), 但 
是 通常 这 一 点 无 法 得 到 保障 。 此 外 ,梯度 估计 ( 值 ) 或 许 找到 局 部 最 大 值 ,但 不 一 定 
是 全 局 最 大 值 。 


10. 2.3 梯度 法 


大 多 数 的 达 代 法 都 是 梯度 法 (gradient methods) , 即 在 梯度 所 确定 的 方向 上 对 
0. 加 以 变动 。 一 个 校正 公式 是 梯度 


0 一 0 十 A,g ， 一 |，… 5 (10., ] ) 
的 矩阵 加 权 平 均 ,其 中 , 人， 表示 qxq 阶 矩 阵 , 它 依赖 于 0， , [条 : 
_ aQn (0) 
38 5 (10. 2 ) 


表示 gX1 维 梯度 向 量 (gradient vector) 在 6. 处 的 计算 值 。 各 种 不 同 梯度 法 运用 不 
同 的 矩阵 A, ,其 详细 情况 在 10. 3 节 阐 述 。 一 个 重要 的 例子 是 牛顿 一 拉夫 森 方 法 ， 
该 方法 设 A, 二 一 H， ,其 中 ,了 表示 海 赛 矩 阵 , 稍 后 将 在 式 (10. 6) 中 加 以 定义 。 注 
意 到 ,本 章 的 A 与 g 表示 数量 ,这 有 别 于 其 他 章节 的 符号 内 容 。 这 里 ,A 不 是 估计 
量 极限 分 布 中 所 出 现 的 矩阵 ,而 g 不 是 非 线 性 回归 模型 中 vy 的 条 件 均值 。 
原则 上 讲 , 矩 阵 A, 对 最 大 值 而 言 是 正定 的 (positive definite) (或 对 最 小 值 而 言 是 
负 定 的 ) ,从 而 可 能 有 Qn (6 ) 盖 Qnv(06.)。 这 由 一 阶 泰勒 级 数 展 开 式 QN (0,+41) 二 
Qn(0.) 十 g; (0,41 一 0,) 十 R 可 得 ,其 中 ,R 表示 余 项 。 所 以 ,一 旦 代 人 更 新 公式 


【1 又 称 为 反应 面 。 一 一 译 者 注 
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(10. 1) 中, 得到: 
QN (0.11)—QN(0.)=g’A,g.+R 

如 果 A, 是 正定 的 且 余 项 R 充分 小 ,上 式 就 大 于 0, 因为 对 正定 方 阵 A 来 说 ,对 于 所 
有 列 向 量 x 关 0, 二 次 式 xXAx>0。 太 小 的 A, 值 会 使 迭代 程序 太 慢 ;不 过 ,即使 A. 
是 正定 的 , 太 大 的 A, 值 会 导致 超过 适当 限度 ,因为 就 很 大 变动 而 言 ,不 能 忽略 余 珊 。 

对 棉 度 法 的 一 种 普 迪 修正 是 ,添加 步 长 调整 (steprsize adjustment) 来 防止 可 能 
超过 适当 限度 或 未 达到 适当 限度 ,因此 : 

0.+1 =0,+A.A,g, (10. 3) 


其 中 , 步 长 4, 表示 迭 取 使 得 Qn (0,41) 达到 最 大 值 的 那个 纯 量 。 在 第 s 次 上 ,首先 
计算 A,g, ,这 会 涉及 相当 的 计算 量 。 然 后 ,计算 Qn (C0,) ,对 于 4 的 取 值 范围 来 说 ( 称 
为 线 搜索 ) ,9 一 和 十 1A,g, ,并 且 像 4 那样 选取 4, 使 得 Qn (6 ) 最 大 化 。 因 为 梯度 与 
A, 均 不 用 沿 着 线 搜索 重新 计算 , 故 可 节省 相当 多 的 计算 量 。 

当 和 矩阵 A, 被 定义 成 矩阵 B, 的 逆 时 ,因此 ,比如 说 ,A 一 B,', 有 时 要 做 出 第 二 
次 修正 。 于 是 ,如 果 B, 接近 于 和 常 值 的 奇异 矩阵。 比如 说 C, 就 要 加 上 或 减 去 C 以 
使 其 逆 存 在 ,因而 A,; 二 (B, 十 C) !。 当 A, 不 是 正定 的 ,就 要 做 类 似 的 调整 。 对 A， 
的 更 进一步 讨论 ,将 在 10. 3 节 给 出 。 

梯度 法 最 有 可 能 收敛 到 最 靠近 初始 值 的 那个 局 部 最 大 值 。 假 如 目标 郑 数 有 多 
重 局 部 最 优 值 , 则 一 系列 的 初始 值 将 被 用 于 增加 寻找 全 局 最 大 但 的 机 会 。 


10. 2.4 榜 度 法 例子 


考察 当 唯 一 的 回归 元 是 截 距 时 ,指数 回归 模型 的 NLS 估计 量 的 计算 。 于 是 ， 
El yj] 二 ef ,并 经 过 一 些 代 数 运算 ,可 得 到 梯度 g 二 N12,(y; 一 ef)ef 一 (yy 一 ef)e?。 
假定 在 式 (10. 1) 中 ,我 们 使 用 A, 一 e 了 2 ,这 对 应 于 稍 后 10. 3. 2 节 将 阐述 的 牛顿 一 
拉夫 森 算 法 的 得 分 变形 方法 。 和 迭代 法 简化 成 64 二 B. 十 (J 一 eh)/es，。 
举 一 个 执行 这 种 算法 的 例子 ,假定 7 一 2 且 初 始 值 是 8 二 0 。 这 就 得 到 表 10. 1 
所 列 的 一 些 迭 代 。 该 例子 非常 迅速 地 收敛 到 NLS 估计 值 ,对 这 个 简单 例子 而 言 ， 
用 解析 方法 能 得 到 , 6 二 ln y= 二 ln 2 二 0. 693 147。 和 目标 函数 自始至终 地 增 大 , 它 是 对 
含有 全 局 凹 目标 函数 使 用 NR 算法 的 结果 。 注 意 到 ,在 第 一 次 迭代 即 从 8 一 0.0 
到 8 一 1.0 时 ,出 现 超过 适当 限度 ,大 于 8 一 0. 693。 
表 10.1 梯度 法 结果 


次 数 估计 值 梯度 目标 函数 
3 B， Bs QB)——ah Dy en) 
1 0. 000 000 1. 000 000 1. 500 000— 2;y; /2N 
2 1. 000 000 一 1.952 492 1.742 036— D2,y: /2N 
3 0.735 758 一 0. 181 711 1. 996 210— >,y; /2N 
4 0. 694 042 一 0. 003 585 1.999 998—5,y’/2N 
5 0. 693 147 一 0. 000 002 2. 000 000— BD,y?/2N 
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当 使 用 NR 算法 且 目 标 函 数 是 全 局 目的 时 候 , 通 常会 出 现 快速 收敛 。 实 际 应 
用 时 的 一 个 挑战 是 , 非 标 准 非 线性 模型 经 常 具有 不 是 全 局 凹 的 目标 函数 。 


10.2.5 和 佐 万 法 与 GMM 仿 计 量 


对 于 mm 佑 计量 来 说 ,Qv(9) 王 六 -1 29i(009) ,并 且 梯 度 g(0) 二 N “!3),99g,(0)/90， 
对 于 广义 窍 方 法 估计 量 来 说 ,QN (9) 是 一 个 二 次 型 (参见 6. 3. 2 节 ) ,而 梯度 为 
更 复杂 的 形式 : 


gC0) 一 [LN 279h(b) 7139]xwWvX[LNT >) h,(0) | 


于 是 ,不 能 再 使 用 某 些 梯度 法 ,因为 它们 只 是 对 平均 起 作用 。10. 3 节 给 出 的 一 些 
方法 ,还 是 能 被 人 们 使 用 的 ,包括 牛顿 一 拉夫 森 、 最 速 下 降 法 .DFP、BFG 以 及 模拟 
退火 法 。 

矩阵 法 与 估计 方程 估计 量 被 定义 成 方程 组 的 解 ,但 它们 类 似 于 广 闵 矩 方法 ,能 
变换 成 数值 最 优化 问题 。 求 解 g 个 方程 N12;h; (0) 二 0 的 估计 量 , 能 通过 对 
QN C0) 二 [N712h; (0)][N-! ,hi (0)] 求 最 小 值 而 得 到 ， 


10. 2.6 收 敏 准则 


迭代 过 程 要 不 断 进行 ,一 直到 不 存在 变化 为 止 。 当 下 面 所 有 情形 发 生 时 ,原则 
上 程序 应 停止 :(1) 在 目标 函数 Qv (0,) 中 出 现 很 小 的 相对 变化 ; (2) 相 对 于 海 赛 矩 
阵 来 说 ,出 现 很 小 的 梯度 向 量 g, 的 变化 ; (3) 参 数 估计 值 8 中 出 现 很 小 的 相对 变 
化 。 统 计 软 件 对 这 三 种 变化 典型 地 选取 默认 的 极限 值 , 称 之 为 收敛 准则 (conver- 
gence criteria) 。 这 些 值 经 常 由 使 用 者 来 变动 。 保 守 值 取 为 10  。 

此 外 ,通常 存在 试图 达到 最 大 的 迭代 次 数 (maximum number of iterations ) 。 
当 达 到 这 个 最 大 值 时 ,该 估计 量 典 型 地 被 报告 出 来 。 可 是 ,除非 达到 收敛 ,否则 不 
应 使 用 该 估计 值 。 

知 达 到 收敛 , 则 获得 局 部 最 大 值 。 然 而 ,除非 目标 函数 是 全 局 凹 的 ,否则 不 能 
确保 获得 全 局 最 大 值 。 


10.2.7 初始 值 


如 果 最 初 的 初始 值 (starting value)0, 接近 于 8, 那么 迭代 次 数 在 很 大 程度 上 会 
得 到 减少 。 很 明显 ,一 致 参数 估计 量 是 作为 初始 值 的 良好 估计 量 。 一 个 不 好 的 初 
始 值 选取 能 导致 兴 代 法 失败 。 特 别 地 ,对 于 某 些 估计 量 与 梯度 法 来 说 ,当初 始 值 是 
9. 一 0 时 ,或 许 不 能 计算 出 g 或 Ai 。 

当 目 标 果 数 不 是 全 局 四 的 时 候 , 一 种 好 的 实践 做 法 是 ,使 用 一 系列 初始 值 , 增 
大 得 到 全 局 最 大 值 的 机 会 。 


10. 2.8 数值 导数 与 解析 导数 


由 定义 知 ,任何 梯 度 法 都 使 用 目标 函数 的 导数 。 或 者 使 用 数值 导数 ,或 者 使 用 
解析 导数 。 


7LL 数值 最 优化 


数值 导数 (numberical derivatives) 是 利用 : 





Tr 
Ce 


AQv (0,) 
AD. 


| 


Qu he ) Que0, 一 he) ， j=1,.…,g (10. 4) 


计算 ,其 中 ,很 小 ,而 @; 一 (0… 010… 0)》 表 示 第 7 行为 1 而 其 余 行 为 0 的 向 量 。 

从 理论 上 讲 ,h 应 该 是 非常 小 的 ,因为 当 h->0 时 ,正式 讲 , AQN (9)/A9 等 于 
9Qn (0) /99; 的 极限 。 在 实际 应 用 时 , 太 小 的 hh 值 会 导致 不 准确 ,其 原因 在 于 法人 误 
差 。 正 因为 这 个 绿 几 ,利用 数值 导数 的 计算 总 是 应 当 采 取 双 倍 精 度 或 四 倍 精 度 ,而 
不 是 单 精度 的 。 尽 管 程序 使 用 默认 值 ,比如 hh 二 10“ 司 ,但 对 于 特殊 问题 来 说 ,其 他 
值 将 会 更 好 。 例 如 , 阁 NLS 回归 中 的 因 变 量 y 以 千 美 元 来 计量 ,而 不 是 以 美元 来 
计量 (回归 元 没有 重新 标 度 ) ,很 小 的 值 就 适宜 ,从 而 ,6 将 是 干 分 之 一 的 大 小 ， 

利用 数值 导数 的 缺点 是 ,对 于 9 个 参数 的 每 一 个 、N 个 观测 值 中 的 每 一 个 以 及 
S 次 迭代 中 的 每 一 次 ,这些 导 数 必 须 计算 多 次 。 这 要 求 对 目标 函数 计算 2gNS 次 ， 
其 中 的 每 一 次 计算 值 在 计算 形式 上 或 许 是 繁琐 而 艰难 的 。 

一 种 可 供 选 择 的 方法 是 ,使 用 解析 导数 (analytical derivatives)。 和 数值 导数 
相 比 ,这 些 方法 将 更 准确 ,并 计算 起 来 会 更 快捷, 尤其 是 解析 导数 比 其 目标 顺 数 本 
身 的 计算 更 简单 。 此 外 ,只 需要 进行 gNS 次 的 困 数 计算 。 

对 于 额外 需要 计算 二 次 导数 来 建立 A, 的 方法 来 说 ,甚至 在 提供 解析 导数 方 
面 ,存在 着 较 大 优势 。 即 使 一 阶 解析 导数 只 是 给 定 的 ,二 阶 导 数 也 会 更 迅速 而 准确 
地 成 为 一 阶 解析 导数 的 一 阶 数值 导数 。 统 计 软 件 经 常 为 用 户 提 供 一 阶 与 二 阶 解析 
导数 的 选项 。 

一 些 数值 守 数 ,除了 提供 目标 水 数 之 外 ,具有 不 需要 编程 的 优点 。 这 可 以 契 省 
编程 时 间 并 剔除 用 户 可 能 的 错误 来 源 , 尽 管 某 些 软件 有 能 力 计 算 解 析 寻 数 。 

不 过 ,假如 计算 时 间 是 一 个 因素 ,或 者 关切 计算 的 准确 性 , 则 特别 提供 解析 
导数 是 值得 的 。 于 是 ,一 种 好 的 实践 做 法 是 ,检验 解析 导数 可 通过 利用 数值 寻 数 
获得 参数 估计 值 来 正确 地 对 解析 导数 编程 ,并 且 利 用 解析 导数 获得 的 初始 值 信 
计 值 。 


10. 2.9 非 春 度 万 沪 


为 了 确保 梯度 存在 ,梯度 法 假定 目标 函数 是 充分 光滑 的 。 有 一 些 例子 ,比如 蔷 
名 的 最 小 绝对 偏差 (LAD) .分 位 数 回 归 以 及 最 大 得 分 估计 ,可 使 用 一 种 非 梯度 的 且 
可 供 选 择 的 迭代 法 。 

例如 ,对 于 LAD 来 说 ,目标 函数 QN (C0,)= 二 NN 7 12;|yi; 一 %B | 不 存在 导数 ,从 而 
运用 线性 规划 方法 (linear programming methods) 代 替 梯 度 法 。 这 类 例子 ,在 我 们 
特别 关注 于 梯度 法 的 微观 经 济 计 量 学 中 几乎 十 分 少见 。 

对 于 很 难 求 最 大 值 的 目标 函数 ,尤其 是 由 于 出 现 多 重 局 部 最 优 值 ,要 使 用 一 些 
非 梯度 法 ,诸如 模拟 退火 法 (10. 3. 8 节 将 阐述 ) 与 遗传 算法 (genetic algorithms)| 参 
网 多 尔 西 和 匹 耶 (Dorsey and Mayer，1995) |。 
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10. 3 ”特定 方法 


最 大 化 全 局 目的 目标 哨 数 的 一 个 重要 方法 是 牛顿 一 拉夫 和 森 迭 代 法 。 当 牛顿 一 
拉夫 和 森 方法 失效 时 ,其 他 一 些 方法 ,诸如 最 速 下 降 法 以 及 DFP, 通 常 都 是 人 们 想 学 
习 并 利用 的 。 对 于 NLS 估计 量 来 说 , 男 一 种 常用 方法 是 高 斯 一 牛顿 方法 。 该 方法 
虽 不 像 牛顿 一 拉夫 和 森 方 法 那样 通用 ,但 它 只 有 对 最 小 二 乘 问题 才 可 应 用 ,而 且 它 可 
作为 对 牛顿 一 拉夫 和 森 方法 的 稍微 修改 。 人 们 将 这 些 各 种 各 样 的 方法 设计 成 用 于 获 
得 给 定 参 数 的 具有 某 些 初始 值 的 局 部 最 优 值 。 

本 下 还 将 曾 述 期 望 值 方法 , 它 尤 其 对 缺失 数据 问题 有 用 , 而 模拟 退火 法 则 是 非 
柳 度 法 的 一 个 例子 ,并 且 该 方法 最 有 可 能 产生 全 局 最 大 值 而 不 是 局 部 最 大 值 。 


10. 3.1 午 纠 一 此 夫 森 万 沙 


牛顿 一 拉夫 和 狐 方 法 | Newton - Raphson (CNR) method | 是 一 种 十 分 流行 的 梯度 
法 。 倘 若 目 标 函 数 关 于 8 是 全 局 目的 , 则 此 方法 特别 有 效 。 在 这 一 方法 中 : 


6. 一 0. 一 Hg， (10. 5) 
其 中 ’ BP: 已 由 式 (10. 2) 和 定义 ,而 : 
_9*Qn(0) 
Hgag 5 (10. 6) 


表示 g Xa 阶 海 赛 矩阵 在 9, 处 的 计算 值 。 这 些 公式 既 可 用 于 求 Qv(b) 的 最 大 值 , 又 
可 用 于 求 最 小 值 ,因为 用 负 号 乘 以 Qn (0) ,人 们 既 能 改变 H.' 的 符 导 ,又 能 改变 g 
的 符号 。 

为 引出 牛顿 一 拉夫 森 CNR) 方 法 ,以 关于 6 的 第 * 次 估计 值 06. 开始 。 然 后 , 借 
助 于 在 0, 处 的 二 阶 泰勒 级 数 展开 : 


和 DCON (0) > | :> ,9* Qn (0) a 
Quv40) 一 Qv(C0 一 37 ; ‘0 9) 二 (0 90) pa0 ; “0 0. ) 十 尺 


一 旦 忽略 余 项 R, 同 时 利用 更 简洁 记号 ,我 们 通过 
Q* (0) =Q: (6.) 十 g (0—6.)+5(0—6,)H.(0—6,) 


逼近 Qv(69) ,其 中 ,g 与 H 都 已 在 式 (10. 2) 与 式 (10. 6) 中 定义 。 为 近似 求 出 
Q* (6) 关 于 6 的 最 大 值 ,我 们 令 其 导数 为 0。 于 是 ,g, 十 H, (6 一 0,) 一 0, 并 求解 09, 得 
到 6,41 二 60, 一 Hs' ,这 就 是 式 (10. 5)。 因 此 ,NR 最 大 化 二 阶 泰勒 级 数 对 在 6, 处 估 
讨 的 Qv(6) 的 逼近 。 

为 了 理解 NR 迭代 是 否 一 定 使 QNv(0) 增 大 ,把 第 (Cs 十 1) 次 估计 值 代入 泰勒 级 
数 近 似 式 中 ,得 到 、 


Qu 6, ) 一 Qv(6.) 一 二 (6 一 0) HH —6.)+R 


HL] 数值 最 优化 


MM 


一 旦 忽略 余 项 ,可 以 发 现 , 当 H, 是 负 定 的 (或 正定 的 ), Qn (0.41) 就 将 增 大 (或 减 
少 ) 。 在 局 部 最 大 值 处 , 海 赛 矩阵 是 半 负 定 的 ,但 离开 最 大 值 时 ,甚至 对 于 定义 良好 
的 问题 来 说 ,或 许 不 是 这 种 情况 。 如 果 NR 方法 误 人 这 种 领域 ,那么 它 不 一 定 朝 最 
大 值 运动 。 进 一 步 地 , 当 海 赛 矩 阵 是 奇异 的 时 ,不 能 计算 式 (10. 5) 中 的 Hs!。 很 明 
显 , 如 果 目 标 盟 数 是 全 局 凹 的 (或 者 凸 的 ) ,进而 H, 总 是 负 定 的 (或 正定 的 ) ,那么 
NR 方法 对 最 大 化 问题 (或 者 最 小 化 问题 ) 最 为 有 效 。 在 这 些 情况 下 ,收敛 时 常 在 
10 次 近 代 之 内 出 现 。 

如 果 初 始 值 6, 是 根 号 N 一 致 的 ,也 就 是 说 ,如 果 wN(6 1 一 906) 服从 正常 极限 
分 布 ,NR 方法 就 具有 额外 引 人 注 目的 特征 。 于 是 ,可 以 证 明 , 第 二 次 估计 量 9, 具 
有 与 通过 迭代 而 获得 收 伍 估计 量 一 样 的 渐 近 分 布 。 因 此 ,进一步 迭代 并 不 会 在 理 
论 上 得 到 好 处 。 一 个 例子 是 可 行 的 GLS, 其 中 ,最 初 OLS 导致 一 致 回归 参数 估计 ， 
而 这 些 值 同样 用 于 获得 一 致 方差 参数 估计 ,进而 用 于 获得 有 效 GLS。 第 二 个 例子 
是 ,在 对 复杂 的 似 然 函 数 求 最 大 值 之 前 ,运用 很 容易 获得 的 一 致 估 计 值 作为 初始 
值 。 尽 管 不 要 求 做 进一步 迭代 ,但 在 实际 应 用 中 ,研究 者 还 是 喜欢 通过 迭代 来 达到 
收 往 ,除非 这 样 做 在 计算 上 太 耗 费时 间 。 和 迭代 收敛 的 一 个 优点 是 ,不 同 的 研究 者 应 
获得 相同 的 参数 估计 值 ,而 各 种 不 同 的 根 号 N 一 致 估计 会 导致 第 二 次 参数 估计 值 
各 不 相同 ,尽管 它们 都 是 渐 近 等 价 的 。 


10. 3. 2 ”得 分 方法 


一 种 对 NR 方法 进行 普遍 修改 的 方法 是 得 分 方法 (method of scoring) 。 在 这 
个 方法 中 , 海 赛 矩阵 要 用 以 下 期 望 值 来 代替 
9° Qn (0) | 

9030 

此 种 代 换 用 于 MLE[ 也 就 是 说 , 当 Qn (9) 二 NT!Lw (9) ] 时 特别 有 利 ,因为 由 信息 和 矩 
阵 等 式 ( 参 见 5. 6. 3 节 ) 可 知 ,期 望 值 应 是 负 定 的 ,Hvs,; 二 一 EL Ln/989Lrv/90 ]'1)， 
由 于 它 是 一 个 协 方差 矩阵 ,所 以 EL*j] 是 正定 的 。 对 m 估计 量 来 说 ,只 有 获得 式 
(10.7) 中 的 期 望 才 是 可 行 的 ,而 且 甚 至 在 此 情况 下 使 用 解析 方法 或 许 都 很 难 。 

对 于 广义 线性 模型 的 MLE 来 说 ,诸如 泊 松 、probit 以 及 logit, 可 以 证 明 ,利用 
夫 代 重新 加 权 最 小 二 乘法 的 得 分 方法 是 可 行 的 [参见 麦 卡 拉 和 内 尔 德 (McCullagh 
and Nelder, 1989) ]。 这 有 利于 及 早 采 用 只 可 使 用 OLS 程序 的 模型 。 

得 分 方法 还 应 用 于 m 估计 量 , 而 不 是 MLE, 尽 管 Hms,; 可 能 不 是 负 的 。 


10. 3.3 BHHH 方法 


伯 思 特 、 埠 尔 、 埠 尔 以 及 豪 斯 曼 (Berndt，Hall，Hall and Hausman，1974) 的 
BHHH 方法 (BHHH method) 利 用 加 权 和 矩阵 A, 二 一 Hspgnn,, 来 使 用 式 (10. 1) ,其 中 ， 


Haauu,, = -=—》 ee ee Og: | (10. 8) 


(10.7) 








Hayes, = 了 | 


[1] 原著 中 这 个 式 子 没有 负 号 ,但 应 添加 负 号 。 一 一 译 者 注 
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可 一 一 一 


而 QN (9) 一 ;gq;(0)。 和 NR 相 比 ,这 具有 仅 需 计算 一 阶 导 数值 的 优点 ,所 以 大 大 
简化 了 计算 量 。 

为 使 该 方法 正确 ,以 MLE 的 得 分 方法 开始 ,在 此 情况 下 ,Qv(9) 王 2iln f;(0)， 
其 中 ,六 (0) 表 示 对 数 密度 。 信 息 和 矩阵 等 式 写 成 : 


E| Se | 一 一 E[ > ?nf nf > 9ln f; (0) 2 | 


而 且 对 于 不 同 i 的 独立 性 蕴含 . 
9 Cn (0) 9 ln f;(0) aln f;(0) 
E| 9690 |= -PE a0 a0 | 


一 旦 省 掉 期 望 , 就 得 到 式 (10. 8) 。 

BHHH 方法 还 能 用 于 一 些 佑 计量 而 不 是 MLE 上 ,在 此 情况 下 , 它 被 看 成 是 对 
式 (10. 1) 中 和 矩阵 A, 的 另 一 种 直接 选取 , 而 不 是 对 海 赛 矩 阵 H. 的 估计 。 

BHHH 方法 可 用 于 许多 横 和 截面 m 估计 量 上 ,因为 它 非 常 有 效 且 只 需要 一 阶 
导数 。 


10. 3.4 最 站 下 降 波 


最 速 下 降 法 (methed of steepest ascent) 是 设 A, 一 玉 , 即 对 加 权 和 矩阵 进行 最 简单 
选取 。 于 是 , 线 搜索 是 通过 常 值 4, 来 标 度 I 来 实施 的 [参见 式 (10. 3)j]。 

线 搜索 是 以 手工 操作 形式 下 降 的 。 在 实际 应 用 中 ,一 种 普遍 做 法 是 运用 线 搜 
索 的 最 优 X, 可 以 证 明 ,4, 二 一 gg./gHg ,其 中 ,H. 表示 海 赛 矩 阵 , 这 个 最 优 4, 需要 
计算 海 赛 矩阵 ,在 此 情况 下 ,人 们 反而 要 使 用 NR。 作 为 最 速 下 降 而 不 是 NR 的 优 
点 是 ,也 .可 能 是 奇异 的 ,尽管 还 需要 HH, 是 负 定 的 来 确保 ;二 0, 因 此 ,4:l 是 负 定 的 。 


10. 3.5 DFP 与 BFGS 方法 


DFP 算法 (DFP algorithmy) 归功 于 达 维 登 (Davidon) 、 弗 芋 彻 (Fletcher) 和 人 鲍 威 
尔 (Pouell) ,该 方法 是 含有 正定 加 权 和 矩阵 A, 的 一 种 梯度 法 ,并 只 需要 计算 一 阶 导 
数 , 而 不 像 NR 需要 计算 海 赛 矩阵 。 这 里 ,对 此 方法 只 曾 述 而 没有 推 叶 。 

加 权 和 矩阵 A, 可 通过 递归 : 

0，10，， A,! s 一 ] 1 
0. 小 一 1 人 一 1 入 人 一 1 
其 中 ,56， 一 Ag ,7 一 和 一 &-1 ,通过 对 式 (10. 9) 的 右边 进行 检查 , 倘 夺 初始 
Au。 是 正定 的 (比如 ,Ao 王 KK ), 则 A, 将 是 正定 的 。 

在 许多 统计 应 用 中 ,此 程序 很 快 就 收敛 。 最 后 ,A, 趋 于 理论 上 偏爱 的 一 H，。 
原则 上 ,该 方法 还 能 提供 用 于 计算 标准 误差 中 海 赛 矩 阵 的 近似 估计 ,而 不 需要 二 次 
导数 或 者 矩阵 逆 。 可 是 ,在 实际 应 用 时 ,这 种 估计 是 一 个 不 好 的 估计 。 

对 DFP 算法 的 精炼 是 BFGS 算法 (BFGS algorithm) , 此 方法 中 , 博 伊 登 (Boy- 
den) . 弗 菜 彻 (Fletchor) 、 苹 德 法 布 (Goldfarb) 和 香农 (Shannon) 使 用 : 





A 二 A， 1 十 (10. 9) 
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: . 5-1 (~ A Yl ) 1 





(10. 10) 
其 中 ”让 :一 1 一 (0.. j /861 ) (A, ! ~ 1/ 1 A. -1 “一 1 ) 。 


10. 3. 6 ”高 斯 一 千 颍 方 汪 


高 斯 一 生 屯 方法 |Gauss - Newton(GN) method |] 是 关于 MLS 估计 量 的 达 代 法 ， 
而 NLS 估计 量 能 通过 迭代 OLS 来 执行 

明确 地 讲 , 对 于 含有 条 件 均值 函数 g(x;,B) 的 NLS 来 说 ,GN 方法 是 设 参数 变 
化 向 量 ( 太 +1 一 据 ) 等 于 源 于 人 工 回 归 


yi—g(xi; AB)= |， B+v (10. 11) 
的 OLS 系数 估计 值 。 等 价 地 , 2.1 等 于 源 自 人 工 回 归 
_ dg; | 有 一 -28 
yi—g(xi, 8.) 8 ;B= E72 BT (10. 12) 
的 OLS 系数 估计 值 。 


为 了 推导 这 种 方法 , 令 &. 是 一 个 初始 值 ,通过 一 阶 泰勒 级 数 展开 式 
gp) ga)+S| ， CC 8B.) 


来 通 近 g(x; ,OB) ,并 把 它 代 和 人 最 小 二 乘法 目标 盟 数 QnN (0) ;得 到 近似 ， 





‘ — dgi 
Q(B) Dr 一 so 一 入 


这 是 y; 一 g(xi, 2) 对 含有 参数 向 量 (6 一 8B.) 的 0g;/3B'| 8 进行 OLS 回归 的 残 差 平 
方 和 ,由 此 得 出 式 (10. 11)。 更 正式 地 讲 : 


(8— A)) 


aa+[ 了 路, 绑 
这 就 是 含有 向 量 & 一 >,9g;/9B1a (yi 一 g(%，, [6B.)) 并 通过 矩阵 A 一 [ 2;908;/938 XX 
9gi:/9B'18 ]! 加 权 的 梯度 法 (10. 1)。 

由 5. 8 节 知 ,迭代 法 (10. 13) 等 于 NLS 估计 的 牛顿 一 拉夫 森 算 法 的 得 分 变形 
方法 ,其 右边 的 第 二 项 和 是 梯度 癌 量 ,而 第 一 项 和 是 负 的 海 赛 抢 阵 期 望 值 (还 可 参 
见 10. 3. 9 节 ) 。 因 此 ,高 斯 一 牛顿 算法 是 牛顿 一 拉夫 森 的 一 种 特殊 情况 ,此 处 更 强 
调 NR, 因 为 它 与 GN 相 比 能 够 应 用 于 更 加 广泛 的 问题 。 


10. 3.7 期望 最 大 化 


可 以 认为 ,本 书 考察 的 众多 数据 与 模型 公式 都 涉及 不 完整 数据 及 缺失 数据 。 
例如 ,关注 的 结果 变量 (比如 , 某 个 州 在 某 个 时 期 的 开支 或 时 期 长 度 ) 可 能 是 右 删 
失 。 也 就 是 说 ,在 一 些 情况 下 ,我 们 可 观测 到 真实 开支 或 时 期 长 度 , 而 在 为 一 些 情 














9 
,| >.36|; (yi— glx, B) (10.13) 
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况 下 ,我 们 可 能 只 知道 结果 大 于 某 一 个 特定 值 ,比如 说 c” 。 第 二 个 例子 涉及 多 元 
回归 ,其 数据 矩阵 看 起 来 如 下 : 

y! A 入 I 

| 


其 中 , ? 代表 缺失 数据 。 此 外 ,我 们 面临 下 述 情 况 : 想 要 估计 线性 回归 模型 y 一 
XB 十 u, 其 中 y 二 [Ly，?], X= 二 [XX |], 但 变量 y 的 某 个 子 集 出 现 缺 失 。 第 三 个 
例子 涉及 估计 C 个 成 分 混合 分 布 的 参数 (01 人 9 ,Oc 3 有 19 " ,TC ) , 该 例子 还 被 称 
为 潜 类 模型 ,h(y|X) 二 271zf; (yj |X;,0;), 其 中 ,f;(y; |X;,0;) 表 示 定 义 良 好 的 
pdf。 这 里 ,wj 二 1,…,C) 表 示 未 知 的 抽样 部 分 ,其 对 应 于 源 自 抽样 的 观测 值 C 淤 
类 密度 。 如 果 抽 样 部 分 是 已 知 常 值 ,那么 估计 起 来 就 比较 简单 ,在 这 个 意义 上 ,把 
此 问题 看 成 是 缺失 数据 问题 会 很 方便 。 

期 望 最 大 化 (expectation maximization，EM) 框 架 提 供用 于 能 被 解释 成 涉及 和 缺 
失 数 据 问题 的 发 展 算法 的 框架 。 关 于 对 这 种 类 型 的 估计 问题 进行 特殊 求解 的 文献 
由 来 已 久 , 但 登 普 斯 特 、 莱 尔 德 和 和 鲁 宾 (Dempster, Laird, and Rubin, 1977) 却 提供 
了 最 可 靠 的 处 理 。 

设 y 表示 关 注 因 变量 变量 ,由 基本 的 潜 变 量 向 量 y 来 决定 。 设 f*(y |X,0) 表 
示 以 回归 元 X 为 条 件 的 潜 变量 的 联合 密度 ,并 设 f(y|X,9) 表 示 已 观测 到 变量 的 联 
合 密度 。 设 从 y 的 样本 空间 到 y 的 空间 存在 多 对 一 映射 ,也 束 是 说 , 淤 变量 y’ 的 值 
唯一 地 决定 y, 但 y 的 值 并 不 唯一 地 决定 y。 由 此 可 得 ,f(y|X,0) 二 了 f*(y" |X,0)/ 
fly |y,;X,0) ,因为 由 贝 叶 斯 规则 条 件 密度 f(y 1y) 二 f(y,Y /f(yY) 二 f(y )/ 
fly) ,其 中 ,最 后 等 式 使 用 了 fly' ,y) 二 f(y ) 作为 y 唯一 地 决定 y。 重 新 排列 得 
,f(y)= fy /f(y |y). 

MLE 对 


] 1 ， 。，。 1 
QN(O)=NLN 0)— Nn (y IX,0) — Nn fly' |y,X,0) (10. 14) 


求 最 大 值 。 因 为 玉 是 不 可 观测 的 ,所 以 对 数 似 然 中 的 第 一 项 可 被 忽略 把 。 第 二 项 
用 它 自己 的 期 望 值 来 代替 ,这 样 做 将 不 涉及 y ,在 第 * 次 ,该 期 望 要 在 9 一 和. 处 
计算 . 

EM 算法 (EM aigorithm) 的 期 望 (E) 要 计算 : 


Qu(616) 一 一 E| An fy |y,X,0) yxX, 6 (10. 15) 


其 中 ,期 望 是 关于 密度 F( |y,X,0 ;) 的 。EM 算法 的 最 大 化 Lmaximization (M) | 
部 分 是 求 Qv(0160,) 的 最 大 值 ,从 而 获得 0,+1。 

完全 EM 算法 是 一 种 迭代 。 已 知 潜 变 量 的 期 望 值 ,对 似 然 函 数 求 最 大 值 ; 已 知 
9 的 当前 值 ,重新 计算 期 望 值 。 该 迭代 过 程 连续 不 断 地 进行 ,一 直到 收 钙 为 止 。 
EM 算法 具有 总 使 Qv(6) 增 大 或 者 恒定 的 优点 ,参见 雨 官 C(Amemiya，1985 ,第 376 
页 )。EM 算法 在 18. 5. 3 节 用 于 潜 类 模型 ,而 在 27. 5 节 则 用 于 缺失 数据 。 
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尽管 EM 算法 只 能 用 于 最 优化 问题 的 一 个 子 集 ,但 在 EM 算法 有 效应 用 方面 
存在 着 相当 广泛 的 文献 。 在 许多 情况 下 ,EM 算法 容易 编程 ,并 且 对 它 的 使 用 进 一 
步 地 受到 有 限 计算 能 力 与 内 存 考虑 的 激发 ,有 限 计 算 能 力 与 内 存 现在 已 不 再 是 最 
高 的 。 虽 然 EM 算法 具有 这 些 吸引 力 。 但 对 于 删 失 数据 模型 与 潜 类 型 来 说 ,直接 
利用 牛顿 一 拉夫 和 森 类 型 迭代 程序 的 佑 计时, 常 发 现 计算 会 更 快 一 些 日 更 有 效 。 


10. 3.8 ” 模 堆 遂 火 


模拟 退火 (Simulated Annealing，SA) 是 另 一 种 非 梯 庆 迭代 法 , 姜 夫 、 费 里 尔 和 
罗杰斯 (Goffe，Ferrier，and Rogers，1994) 对 该 方法 给 出 一 个 综述 。 它 允许 目标 
国 数 加 减少 方 回 而 不 是 同 增 大 方向 运动 ,不 同 于 梯度 法 ,因而 它 疫 有 锁定 回 着 其 特 
殊 局 部 最 大 值 的 稳定 运动 。 

已 知 第 ; 次 迭代 值 6. ,我 们 扰动 0. 的 第 7 分 量 ,获得 一 个 新 的 试验 值 : 


8 一 0 [0 .0 Cr;,) 0 0] (10. 16) 


其 中 ,4; 表示 预先 设 定 的 步 长 ,而 r; 表示 从 (一 1，1) 均 习 分 布 中 所 抽取 的 。 当 使 用 
新 的 试验 值 时 ,也 就 是 说 ,此 方法 设 0,;1 = 二 0* ,这 样 做 要 么 使 目标 函数 增 大 ,要么 没 
有 使 日 标 肾 数 值 增 大 , 却 通 过 了 梅 特 罗 波 利 斯 准则 (Metropolis criterion): 


exp((QN 0° )—QN(0.))/T.,) >u (10. 17) 


其 中 ,uw 表示 从 (0，1) 均 匀 分 布 中 所 抽取 的 ,而 到 表示 被 称 为 温度 (temperature) 的 
标 度 参数 。 因 而 ,对 于 使 Qy (09* ) 与 Qn (60,) 之 差 减 少 的 概率 且 促 使 温度 增高 来 说 ， 
不 仅 上 升 运动 可 被 接收 ,而 且 下 降 运 动 同样 被 接收。 术语 模拟 退火 与 温度 均 起 源 
于 ,与 通过 缓慢 冷却 洲 狂 金属 的 最 小 化 热能 理论 的 类 比 。 

使 用 者 需要 设 定 步 长 参数 人 ; 。 戈 夫 (Goffe，1994) 对 ); 进行 周期 性 调整 ,以 使 
所 有 一 系列 迭代 的 运动 中 有 50% 是 可 接收 的 。 同 理 ,需要 对 温度 加 以 选择 ,从 而 
减少 渤 代 过 程 。 于 是 ,此 算法 在 稳定 地 锁定 一 个 特殊 区 域 之 前 ,最 初 要 在 广泛 的 参 
数 范 围 内 进行 搜寻 。 

快速 模拟 退火 (fast simulated annealing，FSA ) 是 一 种 较 快 的 方法 , 它 是 由 舒 
和 哈 特 利 (Szu and Hartley,1987) 提 出 的 。 它 是 用 由 温度 标 度 的 柯 西 随 机 变量 v 
代替 (一 1,1) 均 匀 分 布 随机 数 rj ,并 允许 固定 步 长 v;。 该 方法 还 使 用 TT, 等 于 初始 
温度 被 FSA 迭代 次 数 除 ,对 迭代 温度 进行 较 简 单 的 调整 ,其 中 一 次 友 代 就 是 对 6 
的 第 gq 个 分 量 的 一 个 完整 循环 。 

卡 梅 伦 和 约翰 森 (Cameron and Johansson，1997) 沿 着 和 瞧 罗 维 次 (Horowitz， 
1992) 的 方法 对 模拟 退火 加 以 讨论 并 使 用 。 这 以 FSA 开始 , 当 在 一 系列 迭代 或 众 
多 次 (250 次 ) 迭 代 之 后 ,Qn (*") 上 产生 相对 很 小 的 变化 ,出 于 节省 计算 量 的 绿 故 , 转 
换 到 梯度 法 (BFGS) 上。 在 模拟 研究 时 ,他 们 发 现 , 与 仪 含 有 一 个 初始 值 的 NR 相 
比 , 含 有 一 系列 不 同 初始 值 的 NR 得 到 了 相当 大 的 改进 ,但 还 有 更 好 的 , 那 束 是 合 
有 一 系列 不 同 初始 值 的 FSA、。 


10. 3.9 例子 : 指数 回 妇 
考察 含有 指数 条 件 均 值 
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ELy |x; |— exp(x; 83) (10. 18) 
的 非 线性 回归 模型 ,其 中 ,x; 与 8 均 表 示 K X1 维 向 量 。NLS 估计 量 局 是 
Qv (8) 一 2 — exp(x' 0)): (10. 19) 


的 极 小 值 解 , 其 中 ,为 了 记号 简单 .忽略 了 通过 2/N 进行 的 标 度 。 其 一 阶 条 忻 关于 
B 是 非 线 性 的 ,同时 8 没有 显 式 解 。 相 反 ,需要 使 用 梯度 法 。 
网 这 个 例子 而 言 , 梯 度 与 海 赛 息 阵 分 别 是 : 


g 一 一 2>，(y 一 ex4p2)eshN， (10.20) 


理 一 2 > (eshexpXiX 一 2(y 一 ed2)exQXiX' (10. 21) 


NR 和 迭代 法 (10. 5) 使 用 了 式 (10. 20) 与 式 (10. 21) 在 及 处 的 计算 值 g 与 H.，。 
注意 式 (10. 18) ,NR 的 一 种 较 简 单 的 得 分 变形 蕴含 ， 


E[H] = 2 > evfe*Ax,x (10. 22) 
一 旦 利用 ELH, | 代替 H. ,就 得 到 : 
By el 一 | > exex XX i 2 je*a Xi (yy 一 EX) 


由 此 可 得 ,从 (y; 一 2x) 对 ex&% 的 OLS 回归 中 计算 及 41 一 BB。 对 于 指数 条 件 均 值 
(10. 18) 来 说 ,由 于 0g (x;,B)/3B8 二 exp(x’ G.)x, 这 也 是 高 斯 一 牛顿 回 妇 (10. 11)， 
对 exp(%iB) 二 exp(B) 专 门 研究 ,可 得 到 10. 2. 4 节 曾 阐述 的 迭代 程序 。 


10. 4 应 用 研究 


一 些 实 际 应 用 问题 已 经 在 10. 2 节 阐 述 过 ,包括 著名 的 收敛 准则 ,诸如 步 长 的 
薪 整 ,还 有 对 数值 村 数 而 不 是 解析 导数 的 利用 。 本 节 将 对 一 些 统计 软件 包 给 予 简 
要 概述 ,并 对 沿 着 非 线 性 估计 量 计 算 时 易 犯 的 普通 错误 展开 讨论 ，。 


10. 4. 1 统计 软件 


所 有 标准 的 微观 经 济 计量 学 软件 包 , 比 如 Limdep .Stata、PCTSP 以 及 SAS 都 
具有 般 人 式 程序 ,这 些 都 能 合计 基本 的 非 线性 模型 ,诸如 logit 与 probit。 一 旦 不 
需要 迭代 或 甚至 所 用 模型 的 知识 ,就 可 直接 运用 这 些 软 件 包 。 例 如 ,关于 logit 回 
归 的 命令 可 以 是 “iogit y z” 而 不 是 关于 OLS 的 命令 “ols y z”。 非 线性 最 小 二 乘法 
需要 某 种 编程 ,以 便 包 含 人 们 希望 设 定 g(x,G) 的 特殊 函数 形式 。 由 于 程序 应 该 利 
用 特殊 模型 的 结构 ,所 以 估计 应 很 快捷 且 准 确 。 例 如 ,如 果 目 标 数 是 全 局 凹 的 ,就 
可 利用 得 分 方法 。 

倘若 统计 软件 包 没 有 包括 特殊 模型 , 则 要 求人 们 编写 自己 的 特有 程序 。 这 种 
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情况 甚至 对 于 标准 模型 的 稍微 变形 ,比如 对 一 些 参 数 施 加 约束 或 利用 不 具有 单 指 
标 形式 的 参数 化 ,都 会 出 现 。 人 们 编程 可 利用 特别 喜欢 的 统计 软件 包 或 其 他 一 些 
更 专门 的 编程 语言 来 编写 。 一 些 可 能 情况 包括 :(1) 般 入 在 统计 软件 包 之 中 的 最 
优化 程序 需要 对 目标 函数 及 其 可 能 的 导数 加 以 设 定 ;(2) 统计 软件 包 中 的 矩阵 命 
令 要 计算 A, 与 g ,以 及 迭代 ; (3) 和 矩阵 编程 语言 ,诸如 Gauss.Matlab、OX .SAS/ 
IML 或 者 S-Plus, 都 可 能 附 有 最 优化 程序 ; (4) 编程 语言 ,诸如 Fortran 或 C 十 十 ; 
(5) 最 优化 软件 包 , 诸 如 GAMS.GQOPT 或 NAGLIB 中 的 那些 最 优化 部 分 。 

第 一 种 方法 与 第 二 种 方法 颇具 吸引 力 , 因 为 它们 不 需要 用 户 学 习 新 的 程序 。 
对 m 估计 来 说 ,第 一 种 方法 尤其 简单 ,原因 在 于 该 方法 只 要 求 对 第 i 个 观测 值 的 子 
函数 gC(0) 加 以 设 定 , 而 不 是 对 Qv(6) 进 行 设 定 。 醋 是 ,在 实际 应 用 中 ,标准 软件 包 
.中 关于 用 户 可 定义 削 数 的 最 优化 程序 与 使 用 更 专门 化 程序 相 比 ,最 可 能 遇 到 数值 
问题 。 此 外 ,对 一 些 软件 包 而 言 ,第 二 种 方法 就 要 求学 习 深 奥 难 懂 的 矩阵 编程 
形式 。 

对 于 非 线性 问题 来 说 ,第 三 种 方法 最 好 ,尽管 这 要 求 用 户 从 头 学 习 和 矩阵 编程 语 

。 而 且 , 实 际 上 人 们 开始 处 理 任何 遇 到 的 经 济 计量 问题 ,一 般 地 讲 , 含 有 和 矩阵 编 
程 培 言 的 最 优化 程序 是 适宜 的 。 再 者 ,一 些 作 者 还 运用 特定 论文 中 曾 用 过 的 程序 。 

一 般 地 讲 , 第 四 种 方法 与 第 五 种 方法 要 求 用 户 具 有 上 比 第 三 种 方法 更 为 复杂 的 
编程 水 平 。 第 四 种 方法 能 产生 更 快速 的 计算 ,而 第 五 种 方法 则 能 解决 在 数值 计算 
上 最 具 挑 战 意 义 的 最 优化 问题 。 

为 外 ,其 他 一 些 实际 问题 包括 软件 成 本 ;同事 使 用 何 种 软件 ;一 个 软件 是 否 具 
有 清楚 的 误差 信息 以 及 有 益 的 排除 程序 错误 的 特性 ,比如 逐 行 妃 踪 程 序 执行 的 跟 
踩 程序。 运用 类 似 于 由 其 他 同事 所 用 的 软件 价值 不 能 被 低估 。 


10. 4.2 计算 困 获 


在 实际 应 用 中 ,计算 困难 在 于 不 可 能 获得 参数 估计 。 例 如 , 误差 信息 可 以 表明 
无 法 计算 佑 计量 ,因为 海 赛 矩阵 是 奇异 的 。 出 现 此 情况 存在 许多 可 能 原因 , 如 同 表 
10. 2 所 概述 的 。 这 些 原因 还 给 出 了 对 参数 估计 的 男 一 种 普遍 情况 的 解释 ,其 中 参 
数 估计 显然 处 于 误差 之 中 。 


表 10.2 计算 困难 :实际 核查 项 目 


all 


问题 核查 内 容 
不 正确 读 取 数据 打印 出 全 部 描述 统计 量 
不 准确 的 计算 使 用 含有 各 种 步 长 h 的 不 同 解 析 导 数 或 数值 导数 
多 重 共 线性 核查 XX 的 条 件数 。 尝 试 回归 元 子 集 
迭代 出 现 柯 异 和 矩阵 尝试 不 需要 和 矩阵 逆 的 方法 ,比如 DFP 
不 好 的 初始 值 尝试 一 系列 不 同 的 初始 值 
模型 不 可 识别 核查 起 来 困难 。 明 显 的 核查 是 虚拟 变量 陷阱 
奇怪 的 参数 值 是 包括 还 是 排除 常 值 ? 迭代 确实 收敛 吗 ? 


不 同 标准 误差 用 哪 一 种 方法 计算 方差 矩阵 ? 
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第 一 ,数据 没有 以 正确 方式 读 人 。 这 是 一 种 值得 注意 的 普遍 出 错 的 类 型 。 对 
于 大 的 数据 集 来 说 ,用 打印 机 打印 出 所 有 数据 是 不 切实 际 的 。 不 过 ,人 们 至 少 应 该 
总 是 获得 描述 统计 量 ,并 核对 一 些 异 常 现 象 ,诸如 变量 的 不 正确 范围 ,是 否 有 异乎 
寻常 大 的 均值 或 异乎 寻常 小 的 均值 ,以 及 异乎 寻常 大 的 或 小 的 标准 差 ( 包 括 零 值 ， 
这 表示 没有 变异 ) 。 更 详细 内 容 参见 3. 5. 4 节 。 

第 二 ,可 能 存在 一 些 计算 误差 。 为 使 这 些 误差 减 到 最 小 范围 ,所 有 计算 都 应 以 
2 倍 精 度 甚至 4 倍 精度 而 不 是 单 精度 进行 运算 。 对 数据 重新 标 度 是 有 益 的 。 因 
而 ,回归 元 具有 类 似 的 均值 与 方差 。 例 如 ,或 许 更 好 的 方式 是 使 用 千 美 元 测量 年 收 
入 ,而 不 是 以 美元 为 单位 计量 的 。 若 使 用 数值 导数 ,就 必须 对 式 (10. 4) 中 变化 值 
加 以 改动 ,需要 关注 的 是 ,如 何 计 算 函 数值 。 例 如 ,最 好 利用 对 数 伽 玛 函 数 即 函数 
In TCy) 加 以 计算 ,其 中 ,TC ) 表 示 伽 玛 困 数 。 

第 三 ,多 重 共 线性 可 能 是 一 个 问题 。 在 单 指标 模型 (参见 5. 2. 4 节 ) 中 ,要 继续 
对 多 重 共 线性 实施 通常 检验 。 可 打印 出 回归 元 的 相关 矩阵 ,尽管 这 只 考察 了 两 两 
相关 的 情况 。 一 种 更 好 的 方式 是 ,使 用 X'X 的 条 件数 , 即 X'X 的 最 大 特征 值 与 最 
小 特征 值 之 比 的 平方 根 。 当 这 个 值 大 于 100 时 ,就 出 现 问题 。 对 于 比 单 指标 模型 
更 为 复杂 的 非 线性 模型 来 说 ,即使 条 件数 并 不 大 ,但 仍 可 能 有 问题 。 假 如 人 们 怀疑 
多 重 共性 导致 了 数值 问题 ,就 要 查看 对 含有 部 分 变量 的 模型 进行 估计 是 否 可 行 , 而 
这 部 分 变量 可 能 不 是 共 线 性 的 。 

第 四 ,在 欠 代 期 间 不 可 逆 的 海 赛 矩 阵 并 不 一 定 草 含 在 真实 最 大 值 处 出 现 奇异 
性 。 尝 试 一 系列 迭代 法 是 值得 的 ,不 仅 包括 牛 顿 一 拉夫 森 方 法 ,还 包含 线 搜索 的 最 
速 下 降 法 以 及 DFP。 该 问题 还 可 能 起 因 于 多 重 共 线 性 。 

第 五 ,尝试 各 种 不 同 的 初始 值 。 迭 代 梯 度 法 被 设计 成 获得 局 部 最 大 值 而 不 是 
全 局 最 大 值 。 防 止 出 现 此 类 情况 的 一 种 方法 是 ,以 广泛 初始 值 开 始 迭 代 。 另 一 种 
方法 是 ,实施 格 点 搜索 。 若 9 的 维 数 很 大 ,这 两 种 方法 在 理论 上 都 需要 在 许多 不 同 
点 上 进行 计算 ,但 是 ,对 于 仅 包 含 几 个 回归 元 的 模型 简化 形式 ,详细 分 析 就 足够 了 ， 
尽管 模型 中 的 几 个 回归 元 大 致 是 统计 显 蒜 的 。 

第 六 ,模型 可 能 是 不 可 识别 的 。 实 际 上 ,模型 识别 的 标准 必要 条 件 是 , 海 赛 矩 
阵 是 可 道 的 。 如 同 线性 模型 一 样 ,简单 的 检查 包括 避免 虚拟 变量 陷阱 ,而且 如 果 在 
最 初 分 析 中 使 用 一 部 分 数据 (数据 子 集 ) ,那么 在 一 部 分 数据 中 确定 所 有 变量 就 具 
有 某 种 变异 。 例 如 ,如 果 数 据 从 性 别 或 年 龄 或 地 区 来 看 是 有 序 的 ,那么 当 这 些 作为 
指示 变量 出 现时 ,就 产生 了 问题 ,并 且 所 选择 的 子 集 是 具有 特定 性 别 、 年 龄 或 地 区 
的 个 体 。 对 于 非 线 性 模型 来 说 ,在 理论 上 ,很 难 确 定 模型 是 不 可 识别 的 。 在 回 到 对 
模型 识别 进行 仔细 分 析 之 前 ,人 们 经 常 首 先 剔除 所 有 其 他 的 潜在 原因 。 

其 至 在 成 功 地 获得 参数 估计 值 之 后 ,仍然 会 出 现 计算 问题 ,因为 不 可 能 获得 方 
差 矩 阵 A“'!BA“! 的 估计 值 。 当 使 用 迭代 法 时 ,比如 DFP, 就 会 产生 这 种 情况 ,不 用 
海 赛 矩阵 A-! 作 为 迭代 中 的 加 权 和 矩阵 。 首 先 ,例如 要 检查 的 是 ,迭代 法 确实 是 收敛 
的 而 不 是 停留 在 默认 的 最 大 和 迭 代 次 数 上 。 当 出 现 收敛 时 ,就 尝试 A 的 一 种 可 供 选 
择 的 估计 ,这 里 通过 期 望海 赛 矩阵 ,或 者 通过 解析 导数 而 不 是 数值 导数 ,利用 更 准 
确 的 数值 来 计算 。 假 如 这 类 求解 仍然 失败 ,一 种 可 能 情况 是 ,模型 是 不 可 识别 的 ， 


HL] 数值 最 优化 


MM 


那么 在 参数 估计 阶段 ,对 这 种 不 可 识别 可 利用 不 用 计算 海 赛 和 矩阵 的 迭代 法 策略 ， 

人 们 发 现 , 另 一 个 计算 问题 是 ,参数 与 方差 估计 并 不 与 先 验 信息 相符 合 。 对 于 
参数 估计 来 说 ,一 些 明 显 检查 ,包括 确保 对 截 距 项 的 正确 处 理 ( 依 赖 于 内 容 来 决定 
是 包含 还 是 排除 ) 是 否 达 到 收 钙 ,以 及 是 否 获得 全 局 最 大 值 (通过 尝试 一 系列 初始 
值 )。 对 于 不 同 统计 软件 包 来 说 , 如果 参 数 估计 的 标准 误差 都 给 出 相同 参数 估计 ， 
那么 最 有 可 能 的 原因 是 ,各 种 不 同方 法 都 可 用 于 建立 方差 矩阵 估计 (参见 5. 5. 2 
节 ) 。 

一 种 好 的 计算 策略 是 ,以 一 小 部 分 数据 及 回归 元 开始 ,比如 说 一 个 回归 元 与 
100 个 观测 值 。 倘 大 项 目 仅 此 一 个 而 已 ,这 就 可 以 通过 诸如 打印 出 重要 输出 或 者 
利用 肯 人 式 追 踪 工 具 (trace facility) 进 行 简化 。 如 果 该 项 目 通过 检查 ,那么 就 整个 
模型 及 数据 而 言 ,计算 问题 不 可 能 归 因 于 不 正确 的 数据 输入 或 编码 错误 ,而 一 种 最 
可 能 的 原因 在 于 真正 的 计算 困难 ,诸如 多 重 共 线性 或 不 好 的 初始 值 。 

检验 项 目 有 效 性 的 一 种 好 方法 是 ,建立 模拟 数据 集 , 其 真实 参数 是 已 知 的 。 对 
于 大 样本 量 来 说 ,比如 说 N= 二 10 000, 估 计 参 数值 应 接近 于 真实 值 。 

最 后 ,注意 到 ,从 非 线 性 模型 估计 中 所 获得 的 合情合理 的 计算 结果 ,并 不 能 保 
证 是 正确 的 结果 。 例 如 ,很 多 早期 出 版 的 多 项 式 probit 模型 的 应 用 明显 地 报告 出 
敏感 性 结果 ,可 是 被 估计 的 模型 结果 被 确定 是 不 可 识别 的 (参见 15. 8. 1 节 )。 


10. 5 文献 注释 


甚至 在 线性 模型 中 仍 会 出 现 数值 问题 ,建议 读者 阅读 戴维森 和 寿 金 农 (David- 
son and MacKinnon，1993 ,第 1.5 节 ) 以 及 格林 (Greene，2003, 附 录 EE) 的 书 。 统 
计 计 算 的 标准 参考 文献 是 ,肯尼迪 和 人 金 特 尔 (Kennedy and Gentle,1980) ,尤其 是 普 
雷 斯 等 人 (Press et al. ，1993) 以 及 普 雷 斯 参与 合作 的 那些 书目 。 对 于 计算 函数 来 
说 ,标准 参考 文献 是 阿布 拉 莫 维 蒋 和 斯 特 根 (Abramowitz and Stegun，1971)。 医 
特 (Quandt，1983) 曾 述 了 许多 计算 问题 ,包括 最 优化 。 

5.3 迭代 法 的 概述 曾 由 雨 官 (Amemiya，1985,4. 4 节 ), 戴 维 森 和 老人 金 农 
(Davidson and MacKinnon，1993 ,6.7 节 ) ,马达 拉 (Maddala，1977, 第 9.8 节 ) 特 
别 是 格林 (Greene，2003, 附 录 E6) 给 出 。 哈 维 (Harvey，1990) 曾 经 给 出 GN 算法 
的 许多 应 用 ,由 于 GN 算法 具有 简单 性 , 故 它 是 NLS 估计 方面 的 一 种 通常 迭代 法 。 
对 于 EM 算法 ,特别 参见 雨 宫 (Amemiya，1985, 第 375~-378 页 )。 对 于 SA ,参见 
苞 夫 等 人 的 文献 (Goffe et al. ，1994) 。 


习 是 


10-1 考察 当 唯 一 回归 元 是 截 距 时 ,logit 回归 模型 的 MLE 计算 。 于 是 ， 
ELyj 二 1/(1 十 e 5), 并 且 已 标 度 的 对 数 似 然 旺 数 梯度 g(B) 二 (vy 一 1/(1 十 e 8))。 
假定 由 样本 得 到 7 一 0. 8, 且 初始 值 是 8 一 0. 0。 

(a) 计算 8 的 牛顿 一 拉夫 和 森 算 法 的 前 6 次 迭代 。 


微观 经 济 计量 学 


-i 


(b) 设 式 (10. 1) 中 的 A, 二 1, 计算 其 梯度 算法 的 前 6 次 迭代 ,因而 B41 二 =p, 十 


(c) 比较 (a) 部 分 与 (b) 部 分 的 方法 效果 。 

10-2 考察 非 线 性 回归 模型 了 一 Ci 十 7Y/(Cza 一 全 ) 十 zx ,其 中 9 1 与 2 都 是 外 
生 何 妇 元 ,它们 与 iid 误差 4 ~ ML0, ce | 是 独立 的 。 

(a) 推导 估计 (a，Y, 9) 的 高 斯 一 牛顿 算法 方程 。 

(b) 推导 估计 (c，7y，06) 的 牛顿 -拉夫 条 算法 方程 。 

(c) 解释 不 能 任意 选取 算法 初始 值 的 重要 性 。 

10-3 假定 yy 的 pdf 具有 CC 个 成 分 的 混合 形式 , f(y|x) 一 2 fi (y) ,其 
中 ,x 二 《zi 0 9 ri 一 0， DT 一 ]。 Ni 是 未 知 的 混合 比例 ,而 密度 1 (y) 的 参 
数 是 预先 假定 已 知 的 。 

(a) 给 定 yi 的 一 个 随机 样本 ， 1 一 1 和 八 ， 写 出 一 般 对 数 似 然 明 数 ， 并 求 TCML 
的 一 阶 条 件 。 证 明 fm. 不 存在 显 式 解 。 

(b) 设 z 表示 潜 分 类 变量 的 CX1 维 向 量 ,i 二 1,…,NN, 使 得 当 >y 来 自 混 合 
第 7 个 分 量 时 ,z ;; 二 1, 而 在 其 他 情况 下 ,zz;; 一 0。 倘若 潜 分 类 变量 是 可 观测 的 , 根 
据 观 测 到 的 潜 变 量 写 出 似 然 晴 数 。 

(c) 推导 估计 的 EM 算法 。( 提 示 : 如 果 zz; 是 可 观测 的 ,那么 元 的 MLE= 
NT D2 j; »。E 步骤 需要 计算 EL zi | ;IM 步骤 需要 用 Fl xz, 1y; | 代替 ji ,然后 求 
解 r)。 

10-4 设 (yi;， yz;) 服 从 二 元 变量 正 态 分 布 ,i 二 1,…,NN, 其 均值 为 (yl ,pz )， 
日 协 方差 参数 (gl » Ol2» 022) ;而 相关 系数 为 Oo 假定 1 的 所 有 N 个 观测 值 都 可 利 
用 ,但 2 却 有 m<<N 个 人 缺失 观测 值 。 利用 yi 的 边缘 分 布 服从 NW lw; ? o;; | 匡 V2 | 
yi1 ~ MN yp) ， 0z2.1j ,其 中 ?AL2.1 一 2 + gi2 /022 (YY) 1), gq22.1 一 (一 人 )ozz ,请 推导 个 
算 yz 缺失 观测 值 的 EM 算法 。 


[C13 原著 中 这 里 为 ,实际 应 为 yz 。 一 一 - 译 痢 注 
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第 三 部 分 


Do 


基于 模拟 的 方法 





数据 是 从 受 限于 各 种 抽样 偏 倚 的 繁复 调查 中 所 抽取 的 大 量 且 异 质 的 数据 ， 
在 这 种 背景 下 ,对 经 济 现象 的 现实 描绘 经 常 需要 使 用 估计 及 后 续 统计 推断 
都 很 困难 的 模型 。 现 在 ,计算 机 硬件 和 软件 的 进步 使 得 完成 这 样 的 任务 成 


为 可 能 。 第 三 部 分 阐述 现代 密集 计算 和 基于 模拟 的 估计 与 推断 方法 ,此 类 
方法 可 减少 某 些 困 难 ， 处 理 这 种 材料 的 背景 会 随 章节 不 同 而 有 些 变化 ， 但 


其 基础 性 根基 是 最 小 二 乘法 与 极 大 似 然 估 计 。 
第 11 章 阑 述 统 计 推 断 的 自助 法 。 当 源 自 浙 近 理论 的 公式 很 复杂 时 ,这 
些 方法 因 提 供 获得 标准 误差 的 方法 简单 而 引 人 注 目 , 例 如 ， 如 同 某 些 两 步 估 
计量 的 情况 。 而 且 , 如 果实 施 恰当 , 自 助 法 能 导致 更 精炼 的 渐 近 理论 ， 从 而 
得 到 小 样本 较 好 的 统计 推断 。 

第 12 章 阐述 基于 模拟 的 估计 方法 。 由 于 不 存在 得 出 闭 形式 解 的 概率 


分 布 的 积分 ,在 标准 计算 方法 无 法 计算 估计 量 的 情况 下 ,这 些 方 法 使 得 估计 


成 为 可 能 。 
第 13 章 概述 贝 叶 斯 方法 ， 该 方法 提供 完全 不 同 于 本 书 其 他 章节 所 使 用 


的 经 典 方法 的 估计 和 推断 方法 。 尽 管 这 是 一 种 不 同 的 方法 ,但 在 实际 应 用 


-中 ,在 大 样本 背景 下 贝 叶 斯 方法 会 产生 与 那些 经 典 方法 相 类 似 的 结果 ， 此 


\ 
. 
量 


外 ， 贝 叶 斯 方法 在 计算 形式 上 以 更 有 效 的 方式 实施 。 


第 二 部 分 已 经 强调 ， 微观 经 济 计量 模型 往往 对 非 线性 模型 进行 估计 ， 其 
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11.1 引 论 


对 于 大 部 分 微观 经 济 计量 学 的 估计 量 及 其 有 关 的 检验 统计 量 来 说 ,不 大 可 能 
有 精确 的 有 限 样 本 结果 可 以 利用 。 前 面 几 章 曾 经 阐述 的 统计 推断 方法 , 均 依 赖 于 
通常 导致 有 限 正 态 分 布 与 卡 方 分 布 的 渐 近 理论 。 

一 种 可 供 选 择 的 近似 是 由 自助 法 提供 的 ,该 方法 归 因 于 埃 弗 龙 (Efron，1978， 
1982) 。 这 通过 蒙特 卡 罗 模 拟 来 通 近 统计 量 的 分 布 , 其 抽样 来 自 经 验 分 布 或 者 观测 
数据 的 拟 合 分 布 。 由 于 计算 能 力 不 断 进步 ,其 所 需 的 额外 计算 通常 是 可 行 的 。 不 
过 ,与 传统 方法 一 样 ,自助 法 依赖 于 渐 近 理论 ,而 且 仅 在 无 限 大 样本 下 是 精确 的 。 

将 广泛 的 目 助 法 分 成 两 大 类 方法 。 第 一 类 是 最 简单 的 自助 法 , 它 使 得 当 传统 
方法 诸如 标准 误差 计算 很 难 实施 时 去 进行 统计 推断 。 第 二 类 是 更 复杂 的 自助 法 ， 
该 方法 具有 提供 可 产生 有 限 样本 中 较 好 近似 的 渐 近 精练 的 其 他 优点 。 应 用 研究 者 
经 常 对 第 一 类 自助 法 较 感 兴趣 。 而 理论 学 家 则 强调 第 二 类 自助 法 ,尤其 是 当 渐 近 
理论 在 有 限 样 本 条 件 下 表现 不 好 时 。 

经 济 计 量 学 文献 中 关注 假设 检验 对 自助 法 的 使 用 ,这 依赖 于 对 统计 量 分 布 尾 
部 概率 的 近似 。 其 他 一 些 应 用 涉及 置信 区 间 、 标 准 误差 的 估计 以 及 缩减 偏 傈 。 尽 
管 对 含有 渐 近 精练 的 自助 法 利用 不 足 , 但 对 于 建立 在 iid 样本 上 的 光滑 VN 一 致 估 
计量 来 说 ,可 直接 实施 自助 法 。 在 男 一 些 背 景 下 ,包括 非 光滑 估计 量 诸 如 中 位 数 、 
非 参 数 估 计量 以 及 数据 不 是 iid 的 推断 , 则 要 小 心 谨慎 。 

11. 2 节 将 对 上 自助 法 提供 一 个 相当 充分 的 概述 ,11. 3 节 给 出 一 个 例子 ,11.4 节 
则 提供 某 种 理论 。 上 自助 法 的 进一步 变形 在 11. 5 节 加 以 前 述 。11. 6 节 阐 述 微观 经 
济 计量 学 中 在 特定 数据 形式 与 特定 方法 下 对 自助 法 的 运用 。 


11.2 日 助 法 概述 


我 们 概述 建立 在 iid 样本 (wi,… ,wn) 基 础 上 的 估计 量 6 与 有 关 统 计量 的 重要 


目 助 法 ,这 里 通常 有 WiO—(Y:,X;) ,中 0 表示 光滑 估计 量 , 该 估计 量 是 VN 一 致 的 且 
服从 渐 近 正 态 分 布 。 为 使 记号 简单 ,通常 阐述 纯 量 0 的 一 些 结果 。 对 于 向 量 90, 在 
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rm 


大 部 分 例子 中 ,用 9 的 第 j 个 分 量 0; 代替 0。 

关注 的 统计 量 包括 通常 的 回归 输出 :估计 值 9; 标 准 误差 ;;;t 统计 量 1 一 
(9 一 0)/s; ,其 中 ,6 表示 零 假设 值 ;与 这 个 统计 量 有 关 的 临界 值 或 p 值 ;以 及 置信 
区 间 。 

本 六 将 对 这 些 统计 量 逐 一 阐述 其 自助 法 。 而 且 给 出 某 种 动机 ,而 11. 4 节 将 对 
基本 理论 加 以 概述 。 


11.2.1 不 帝 福 燃 的 日 助 法 


考察 样本 均值 j= 二 y= 二 N20;% 的 方差 估计 ,其 中 , 纯 量 随机 变量 w 服从 
iid [wo ], 当 VLO 一 o2/N 是 未 知 的 时 候 。 

六 的 方差 能 通过 取 目 总 体 的 S 个 容量 为 六 的 样本 而 得 到 ,并 得 出 S 个 样本 均值 ; 
从 而 得 到 S 个 估计 值 g= 二 3 ，s 二 1,…,S。 然 后 ,我们 通过 (S 一 1) 12% (CA 一 请) 
估计 V[jj], 其 中 ,j= 二 S72 1p。 

当然 ,由 于 我 们 只 有 一 个 样本 ,所 以 这 一 方法 不 可 行 。 自 助 法 通过 把 样本 看 成 
总 体 而 实施 这 个 方法 。 于 是 ,有 限 总 体现 在 就 是 真实 数据 mm ，,…, yn。 的 分 布 可 
通过 从 容量 为 N 的 此 总 体 中 抽取 B 个 自助 法 样本 而 得 到 ,其 中 每 一 个 自助 法 容量 
为 N 的 样本 都 是 通过 从 yi ，… ,yn 中 进行 放 回 抽样 取得 的 。 这 就 得 到 B 个 样本 均 
值 ,从 而 得 出 B 个 估计 值 记 二 及,6 二 1,…,B。 然 后 ,通过 (B 一 1)"1 5_1(% 一 A》 估 
计 VLO ,其 中 ,=B 2 入 。 放 回 抽样 看 起 来 似乎 违背 了 通常 抽样 方法 ,但 实 
际 上 标准 的 抽样 理论 都 假定 进行 放 回 抽样 ,而 不 是 不 放 回 抽样 (参见 24. 2. 2 记 )，。 

一 旦 拥有 额外 信息 ,使 用 其 他 一 些 获取 自助 法 样本 的 方法 是 可 能 的 。 例 如 , 倘 
若 知道 yw 一 人 Lp] ,我 们 就 能 从 WA 分布 中 抽取 容量 为 N 的 B 个 自助 法 样 
本 。 这 种 自助 法 是 参数 上 自助 法 的 一 个 例子 ,而 前 面 的 自助 法 则 出 是 经 验 分 布 。 

更 一 般 地 讲 ,对 于 估计 量 8 来 说 ,能 使 用 类 似 的 自助 法 ,例如 , 当 V[6 ] 的 解析 
公式 很 复杂 时 ,要 估计 V[L6 ], 从 而 估计 标准 误差 。 当 观测 值 w 对 不 同 i 是 iid 的 
时 候 , 这 种 自助 法 通常 是 有 效 的 ,而 且 它 们 具有 类 似 于 运用 通常 浙 近 理论 所 获得 的 
估计 性 质 。 


11. 2. 2 浙 近 精 烁 


在 一 些 背 景 下 ,对 前 面 的 自助 法 加 以 改进 是 可 能 的 ,并 获得 等 价 于 运用 更 加 精 
炼 渐 近 理论 所 得 到 的 那些 估计 和 值 , 而 精炼 渐 近 理论 可 以 更 好 地 通 近 9 的 有 限 样本 
分 布 。 本 章 的 大 部 分 内 容 是 针对 这 类 渐 近 精炼 (asymptotic refinements) 的 。 


通常 , 渐 近 理论 使 用 V 丽 (6 一 9 ) 全 No,o2] 的 结果 。 因 而 : 
Pr VNGO—0)/o Sz)= BD(z)+R, (11. 1) 


其 中 ,加 (.) 表 示 标 准 正 态 cdf, 而 Ri 表示 余 项 , 当 N 一 co 时 ,RI 将 消失 ，。 
这 个 结果 建立 在 5. 3 节 曾 经 详 述 的 渐 近 理论 基础 之 上 ,包括 中 心 极 限定 理 的 
应 用 。CLT( 中 心 极限 定理 ) 是 建立 在 截 尾 每 级 数 展 开 式 的 基础 上 。11. 4. 3 节 将 


HA 自助 法 


J 


详 述 埃 奇 沃 思 展 开 式 ,该 展开 式 包 括 了 另外 一 些 项 。 当 具有 一 个 附加 项 时 ,得 到 . 


Pr[ VNGO—0,) /0 <z]—=@(z)+e Se 十 RR (11. 2) 


其 中 ,#%(*) 表 示 标 准 正 态 密度 ,gi (") 表 示 给 定 11. 4. 3 节 的 式 (11. 13) 之 后 的 有 界 
萎 数 ,而 R, 表示 余 项 , 当 N->co 时 ,该 余 项 将 会 消失 。 

埃 奇 添 思 展开 式 在 理论 很 难 实施 , 因 为 函数 g1(*) 以 复杂 方式 成 为 数据 相依 
上 时。 含有 渐 近 精炼 (with asymptotic refinement) 的 自助 法 提供 了 一 种 简单 的 计算 
方法 实施 埃 奇 沃 思 展 开 式 。 该 理论 将 在 11. 4. 4 节 给 

由 于 Ri 二 OCN 让) 且 Rs 一 OCN 1!), 所 以 在 渐 近 形式 上 R, 二 Ri, 当 和 N 一 oo 时 
会 产生 更 好 的 近似 。 不 过 ,在 有 限 样 本 中 ,可 能 出 现 R >R 。 含 有 渐 近 精炼 的 自 
助 法 在 渐 近 形式 上 提供 一 种 更 好 的 近似 ,这 种 近似 导致 希望 典型 使 用 的 有 限 容 量 
样本 会 更 好 地 近似 。 然 而 ,不 存在 这 样 的 保证 ,而 且 模 拟 研究 经 常用 于 验证 有 限 样 
本 确实 存在 好 处 ，。 


11.2.3 新 近 中 人 议 统 计量 


为 了 出 现 渐 近 精炼 ,作为 自助 法 的 统计 量 必须 是 渐 近 中 枢 统 计量 (asymptoti- 
cally pivotal statistic) , 这 意味 着 该 统计 量 的 极限 分 布 不 依赖 于 未 知 参数 。 该 结果 
将 在 11. 4. 4 节 加 以 解释 。 


举 一 个 例子 ,考察 从 一 [wo] 中 进行 抽样 。 于 是 ,估计 值 总 = 了 一 ML0,o/N] 
陨 不 是 新 近 中 枢 的 ,甚至 给 定 零 假 设 值 yyw 时 ,因为 它 的 分 布依 赖 于 未 知 参 数 


0 。 然 而 ,学 生化 统计 量 (studentized statistic) 1 二 (一 jo)/s;~~M[0,1] 则 是 浙 近 
中 枢 的 。 

一 般 地 讲 , 佑 计量 不 是 渐 近 中 枢 的 。 然 而 ,常规 的 渐 近 标准 正 态 或 卡 方 分 布 检 
验 统计 量 ,包括 沃 尔 德 . 拉 格 度 日 乘 子 、 似 然 比 检验 以 及 有 关 的 置信 区 间 都 是 渐 近 
中 枢 的 。 


11.2.4 日 助 潜 


本 节 我 们 将 对 自助 法 给 出 一 种 广泛 的 描述 ,更 进一步 的 详细 内 容 , 将 在 后 面 各 
节 展 开 。 

自助 法 算法 

一 般 目 助 法 算法 (bootstrap algorithm) 如 下 : 

1. 已 知 数据 w ,…,wn， 利 用 下 面 将 给 出 的 方法 抽取 容量 为 NN 的 自助 样本 ， 
并 将 新 样本 记 为 wi ,…,w、。 

2. 利用 自助 样本 计算 适当 的 统计 量 。 一 些 例子 包括 :(a) 9 的 估计 值 9”; 
(b) 估计 值 9 的 标准 误差 ;,. ;(c) 在 最 初 估计 值 0 处 中 心 化 的 1 统计 量 1* 二 (0" 一 
0)/s;. 。 这 里 ,9' 与 s; 均 是 以 通常 方式 使 用 新 自助 样本 而 不 是 最 初 样本 计算 的 。 

3. 对 步骤 1 与 2 各 自重 复 B 次 ,其 中 ,B 表示 很 大 的 数 , 得 到 关注 统计 量 的 B 
次 自助 复制 ,比如 由 ,…,08 或 上 本。 
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4. 运用 BB 次 日 助 复制 ,获得 统计 量 的 自助 法 形式 ,正如 下 面 一 小 节 所 详 述 的 。 

具体 实施 会 依据 自助 样本 怎样 获得 .执行 多 少 次 自助 法 .什么 样 的 统计 量 作为 
日 助 的 以 及 该 项 统计 量 是 否 是 渐 近 中 枢 的 而 变化 。 

和 目 助 法 抽样 法 

在 步骤 1 中 的 自助 法 数据 生成 过 程 (dgp) 用 于 逼近 真实 的 未 知 数据 生成 过 程 。 

最 简单 的 自助 方法 是 使 用 数据 的 经 验 分 布 , 将 样本 看 成 是 总 体 。 然 后 ,通过 从 
wi，,……* ,WN 中 进行 放 回 抽样 获得 wi ,…,w*。 这 样 做 得 到 的 每 个 自助 样本 中 ,最 初 
数据 的 某 些 点 将 多 次 出 现 ,而 另外 一 些 点 将 根本 不 出 现 。 这 一 方法 是 经 验 分 布 孙 
效 (EPF) 自助 法 Lempirical distribution function (EDF) bootstrap ] 或 非 参 数 自助 法 
(nonparametric bootstrap) 。 它 也 被 称 为 成 对 自助 法 (paired bootstrap) , 因为 在 单 
方程 回归 模型 中 有 Wi (y:;, Xi), 所 以 这 里 既 对 yi 上 骨 抽 样 ,又 对 x; 再 抽样 。 

假定 对 数据 的 条 件 分 布 进行 设 定 , 比 如 说 yx 一 下 Cx,9o) ,同时 可 利用 估计 值 


6 人 9。。 然 后 ,尽管 通过 从 F(x;,6 ) 中 随机 抽取 来 生成 y;, 但 我 们 在 步 1 中 运用 
最 初 的 x 来 形成 自助 样本 。 这 对 应 于 重复 样本 中 国定 回归 元 (参见 4. 4. 5 节 )。 否 
则 ,我 们 首先 从 Xl 9" XN 中 重新 抽取 Xx; ;然后 从 F(x ,0 ) 中 生成 yis1= 1, ,NN, 
这 两 个 都 是 能 应 用 于 完全 参数 模型 的 参数 自助 法 (parametric bootstrap) 的 例子 。 

对 于 含有 可 加 iid 误差 的 回归 模型 来 说 ,比如 说 y; 二 g(x;,B) 十 ui ,我 们 能 形成 
拟 合 残 差 埃 ”""" ,tN ， 其 中 Ui 一 yy， g(x; 9 A) o 然后 ,在 步骤 l 中 ,从 这 些 残 差 中 目 
助 而 得 到 一 个 新 的 残 差 取样 ,比如 说 (三 ，… ,i ), 从 而 得 到 自助 样本 Cy* ,x )，…， 
CN,xv) ,其 中 y* 二 g(x GD) 十 好。 这 种 自助 法 称 为 残 差 自助 法 (residual bootstrap) 
它 使 用 了 介 于 非 参 数 自助 法 与 参数 自助 法 之 间 的 信息 。 如 果 误 差 项 具有 不 依赖 于 
未 知 参数 的 分 布 , 那 么 就 能 应 用 残 差 自 助 法 。 

我 们 之 所 以 强调 成 对 目 助 法 ,是 因为 它 对 广泛 的 非 线性 模型 具有 简单 性 和 可 
应 用 性 。 然 而 ,其 他 一 些 自助 法 通常 会 提供 更 好 的 近似 [参见 霍 罗 维 区 (Horowitz， 
2001, 第 3 185 页 )], 并 且 如 果 它 们 需要 的 较 强 模型 假设 都 得 以 成 立 , 就 应 该 加 以 
应 用 。 

自助 法 的 次 数 

目 助 法 特性 依赖 于 N 一 co ,因此 甚至 对 于 较 小 的 B, 自 助 法 在 渐 近 形式 上 都 
是 有 效 的 。 不 过 ,很 明显 当 B 一 co 时 ,自助 法 更 为 准确 。 充 分 大 的 B 会 随 着 导 人 自 
助 法 (bootstrap-induced) 模 拟 误 差 的 容许 与 目 助 法 的 目的 而 变化 。 

安德鲁 斯 和 布 基 斯 基 (Andrews and Buchinsky，2000) 已 经 阐述 了 确保 给 定 精 
度 水 平 ,或 者 等 价 地 对 于 给 定 B 值 所 获得 的 精度 水 平 ,用 特定 应 用 的 数值 方法 决定 
所 需要 的 复制 次 数 如 。 设 1 表示 关注 的 一 个 量 , 璧 如 标准 误差 或 临界 值 ,M- 表示 满 
足 B= 二 oo 的 理想 自助 法 估计 值 , 而 As 表示 具有 B 次 自助 法 的 估计 值 。 然 后 , 安 德 
鲁 期 和 布 基 斯 基 证 明 : 


网 ~ dd 
VBOAg—A) /A > NN [0,w | 


其 中 ,w 随 着 应 用 而 变 , 并 由 安德鲁 斯 和 布 基 斯 基 的 表 III 加 以 定义 。 由 此 可 得 ， 
Pr| 6 SZ, oy w/Bj| 二 1 一 rt, 其 中 ,6 一 AB —Acs | 人- 表示 仅仅 由 B 次 复制 所 引起 的 相 


可 如 加 mi 


对 偏差 。 因 而 ,B 宇 wz /82 确保 了 相对 偏差 至 少 以 概率 1 一 rz 小 于 8。 否 则 ,给 
B 次 复制 ,相对 偏差 小 于 6 一 zyoVw7B， 
为 了 提供 具体 的 指导 原则 ,我 们 提出 下 述 经 验 法 则 : 


B= 3846 


该 式 确保 了 相对 偏差 至 少 以 概率 0. 95 小 于 10%, 因 为 xz ws/0. 12 二 384。 实 施 中 
唯一 的 困难 部 分 是 对 w 的 估计 ,这 将 随 应 用 而 变化 。 

对 于 标准 误差 估计 来 说 ,w 二 (2 十 7)/4, 其 中 ,y 表示 目 助 法 估计 量 O* 的 超 峰 
度 的 系数 。 从 直观 上 讲 , 估 计量 分 布 的 较 肥 尾部 (fatter tail) 意味 着 可 能 有 异常 值 ， 
污染 了 标准 误差 估计 。 由 此 可 得 , 当 x 二 0 时 ,B= 二 384X(1/2) 二 192 就 足够 ,而 当 
Xi 一 8 时 ,需要 B= 二 960。 这 些 值 均 大 于 由 埃 弗 龙 和 带 布 沙 兰 尼 (Efron and Tibsha- 
rani,1993, 第 52 页 ) 曾 经 提出 的 那些 值 ,他 们 认为 ,B= 二 200 几乎 总 是 足够 的 。 

对 于 对 称 双 侧 检 验 或 者 水 平 为 a 的 置信 区 间 来 说 ,w= 二 a(1 一 a)/[2z,s $8(z2) 上 上。 
当 a 二 0. 05 时 ,得 到 B= 二 348, 而 当 aa 二 0. 01 时 ,得 到 B= 二 685。 如 人 们 所 料 , 要 进 一 
步 深入 研究 分 布 尾 部 ,就 需要 更 多 次 自助 法 。 

对 于 单 侧 检验 或 者 非 对 称 双 侧 检验 或 水 平 为 a 的 置信 区 间 来 说 ,w= 二 a(1 一 a)/ 
[zd (z,) 上 。 当 a 一 0.05 时 ,得 到 B= 二 634, 而 当 a 二 0.01 时 ,得 到 B= 二 989。 当 对 尾 
部 进行 检验 时 ,需要 更 多 次 的 自助 法 。 对 于 自由 度 为 h 的 卡 方 检验 来 说 ,w= 
ga(1 一 @)/[Xs Ch) 了 CXs Ch)) 了 ,其 中 ,fC*) 表 未 (h)) 密 度 。 

对 于 检验 p 值 来 说 ,w 二 (1 一 p)/p。 例 如 , 当 p= 二 0. 05 时 ,w= 二 19, 而 日 B= 
7 296。 与 超过 临界 值 的 拒绝 假设 相 比 ,要 准确 计算 检验 p 值 就 需要 更 多 次 自助 法 。 

对 于 0 的 偏 倚 修 正 估 计 来 说 ,简单 规则 使 用 多 ==6:/5 ,其 中 ,估计 量 96 具有 标 
准 误差 6。 例如 ,如 果 通 常 1 统计 量 : 二 0/6 一 2, 那 么 多 二 1/4, 而 B 王 96。 安德鲁 斯 
和 布 基 斯 基 (Andrews and Buchinsky，2000) 曾 提供 许多 更 详细 的 内 容 和 对 这 些 结 

对 于 假设 检验 来 说 ,戴维森 和 老人 金 农 (Davidson and MacKinnon，2000) 提 供 
了 一 种 可 供 选 择 的 方法 。 他 们 关注 于 由 具有 有 限 B 次 自助 法 引起 的 功效 损失 ， 
(注意 到 ,如 果 B 二 oo, 就 没有 损失 功效 。) 在 模拟 基础 上 ,他 们 对 于 水 平 为 0.05 的 
检验 ,建议 至 少 B= 二 399, 而 对 于 水 平 为 0. 01 的 检验 至 少 B= 二 1 499。 他 们 论证 了 ， 
其 检验 方法 优 于 安德鲁 斯 和 布 基期 基 的 那 种 方法 。 

麦 金 农 (MacKinnon，2002) 曾 经 概述 了 由 戴维森 和 麦 金 农 撰 写 的 其 他 几 篇 论 
文 内 容 , 强 调 自助 法 推断 中 出 现 的 一 些 实践 问题 。 对 于 水 平 为 a 的 假设 检验 来 说 ， 
选取 B 以 使 a(B 十 1) 为 整数 。 例 如 , 当 a 二 0.05 时 , 设 B= 二 399 而 不 是 400。 相 反 ， 
如 果 B= 二 400, 那 么 对 上 面 单 侧 而 言 ,第 20 个 或 第 21 个 最 大 目 助 法 上 统计 量 是 否 是 
临界 值 就 不 清楚 了 。 对 于 非 线 性 模型 来 说 ,可 以 在 每 个 自助 样本 中 令 初 值 等 于 初 
始 参 数 估 计 值 ,仅仅 执行 几 次 牛顿 一 拉夫 森 迭 代 而 简化 计算 。 


11.2.5 标准 谋 差 估计 
估计 量 的 方差 自助 法 估计 (bootstrap estimate of variance) 是 将 通常 的 估计 方 
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rh 


差 公式 应 用 于 B 次 自助 法 复制 97,… ,98; 上 ， 
] SN。 5 
$2 ,一 BT (0 —0*): (11. 3) 
其 中 : 
b 2 
9" =B!D,0 (11. 4) 
b=! 


取 平 方 根 得 到 s, , , 即 标准 误差 的 自助 法 估计 值 (bootstrap estimate of the stand- 
ard error) 。 

这 个 目 助 法 并 没有 提供 渐 近 精炼 。 然 而 , 当 利 用 传统 方法 很 难 获 得 标准 误差 
时 , 它 却 有 令 人 惊奇 的 用 途 。 存 在 许多 这 样 的 例子 。 估 计 值 9 可 以 是 序 贯 两 步 m 
估计 量 [17(sequential twoe-step m-estimator) ,其 标准 误差 利用 由 6. 8 节 给 出 的 结果 
很 难 计算 出 。 估 计 值 9 是 利用 软件 包 所 估计 出 的 2SLS 估计 量 , 而 该 软件 包 只 报告 
假定 同方 差 时 的 标准 误差 ,但 误差 实际 上 是 异 方 益 的 (heteroskedastic)。 佑 计 值 8 
可 以 是 实际 所 估计 的 其 他 参数 函数 (function of other parameters) ,例如 0 二 &/ 有 ， 而 
使 用 自助 法 来 代替 5 方法 。 对 于 含有 许多 小 整 群 的 整 群 数据 "2?1(clhustered data) 来 
说 ,诸如 短 面板 , 整 群 稳健 的 标准 误差 可 通过 从 整 群 中 再 抽样 而 获得 。 

由 于 目 助 法 合计 s; ， 是 一 致 的 , 它 可 用 于 代替 通常 渐 近 公式 中 的 sj; 来 构成 渐 
近 有 效 的 置信 区 间 与 假设 检验 。 因 而 ,在 很 难 通过 其 他 方法 获得 标准 误差 的 背景 
下 , 渐 近 统计 推断 就 是 可 行 的 。 然 而 ,有 限 样 本 实施 将 不 存在 改进 (no improve- 
ment) 。 为 了 获得 渐 近 精炼 ,需要 下 一 闻 的 一 些 方法 。 


11. 2.6 假设 检验 


这 里 ,我 们 考察 个 体系 数 的 检验 ,系数 记 为 9。 检验 或 者 是 单 侧 向 上 的 选择 
Ho。: 0 委 0 与 H,: 0 之 06 ,或 者 是 双 侧 检验 有 H,: 0 一 0 与 H,: 0 和 关 00。 其 他 一 些 检 
验 推迟 到 11. 6. 3 节 。 

含有 渐 近 精炼 的 检验 z 

通常 检验 统计 量 Tw 二 (0 一 906)/sjy 提 供 了 渐 近 精炼 的 潜力 ,这 是 因为 它 的 渐 近 
标准 正 态 分 布 不 依赖 于 未 知 参 数 , 从 而 成 为 渐 近 中 框 的 。 我 们 执行 吾 次 自助 法 复 
制 生 成 B 个 检验 统计 量 霹 ,…, 志 ,其 中 : 


=(0 —0) /se (11. 2) 


估计 值 丰 集中 围绕 在 初始 估计 值 9 的 附近 ,因为 再 抽样 是 从 集中 于 6 附近 的 分 布 
中 进行 抽取 的 。 经 验 分 布 疾 ，… 刀 ,从 小 到 大 排列 ,用 于 通 近 Tw 分 布 。 

对 于 单 侧 向 上 的 可 选择 检验 来 说 , 自助 法 临界 值 C(bootstrap critical value) (在 a 
水 平 上 ) 是 B 个 有 序 检验 统计 量 的 则 上 a 分 位 数 。 例 如 , 当 B= 二 999 且 a= 二 0.05 时 ， 
临界 值 是 1* 的 第 950 个 最 大 值 ,从 而 (B 十 1) (1 一 a) 二 950。 对 于 单 侧 向 下 的 可 供 


C13 又 称 为 序列 两 步 m 估 计量。 一 -- 译 者 注 
[C22 又 称 为 群 聚 数 据 。 一 一 译 者 注 


选择 检验 ,临界 值 是 1" 的 第 50 个 最 小 值 。 

人 们 也 可 以 明显 方式 计算 自助 法 bp 值 (bootstrap p-value)。 例 如 , 当 最 初 统计 
量 上 位 于 999 个 有 目 助 法 复制 的 第 914 个 与 第 915 个 最 大 值 之 间 , 单 侧 向 上 的 可 选择 
检验 的 户 值 是 1 一 9147(B 十 1) 一 0.086 。 

对 于 双 侧 检验 来 说 ,需要 在 对 称 检验 与 非 对 称 检验 之 间 加 以 区 别 。 对 于 非 对 
称 (nonsymmetrical test) 或 等 尾部 检验 (equal-tailed test) 而 言 ,自助 法 临界 值 Ceriti- 
cal values) (在 a 水平 上 ) 是 有 序 统计 量 1* 的 向上 a/2 与 向 下 a/2 的 分 位 数 , 而 且 当 
原始 上 统计 量 位 于 这 个 范围 之 外 ,就 拒绝 零 假 设 。 然 而 ,对 于 对 称 检验 (symmetri- 
cal test) 而 言 ,我 们 对 |z" | 排序 ,其 自助 法 临界 值 (在 a 水平 上 ) 是 有 序 jr | 的 向 上 a 
分 位 数 。 当 |z | 大 于 这 个 范围 时 ,就 在 a 水平 上 拒绝 零 假设 。 

利用 +t 百 分 位 数 方法 (percentile-t: method) 的 这 些 检 验 , 提 供 了 渐 近 精炼 。 对 
于 单 侧 上 检验 与 非 对 称 的 双 侧 上 检验 ,检验 的 真实 水 平 (true size) 是 带 有 标准 渐 近 
临界 值 的 a 十 OCN 于) 与 带 有 自助 法 临界 值 的 a 十 O(N-)。 对 于 双 侧 对 称 上 检 
验 或 者 潮 近 卡 方 检验 , 渐 近 近似 会 实施 得 更 好 ,并 且 , 利 用 标准 渐 近 临界 值 进行 检验 
的 真实 水 乎 是 e 十 OGCN  ) ,而 利用 自助 临界 值 进行 检验 的 真实 水 平 是 ac 十 O(N : )。 

不 含 渐 近 精炼 的 检验 

尽管 渐 近 有 效 并 没有 提供 渐 近 精炼 ,但 可 使 用 一 种 可 供 选 择 的 自助 法 。 

一 种 曾 在 11. 2. 5 节 末 尾 提 及 的 方法 是 计算 :一 (0 一 如) 人 ,, ;其 中 ,由 式 
(11. 3) 给 出 的 日 助 估计 值 ;; ,代替 通常 的 估计 值 ;; ,同时 把 这 个 检验 统计 量 与 出 
目标 准 正 态 分 布 的 临界 值 相 比 。 

第 二 种 方法 ,此 处 阐述 双 侧 检验 刁 ,: 9 二 0, 与 HH,:; 9 关 @ 是 求 出 自助 法 估计 
值 O07 ,…,0; a/2 的 向 下 a/2 分 位 数 与 向 上 a/2 分 位 数 ,而 当 64 落 入 这 一 范围 之 
外 ,就 拒绝 电 ,。 这 称 为 百 分 位 数 方法 (percentile method)。 通 过 利用 以 6 为 中 心 
而 不 是 以 06 为 中 心 的 式 (11. 5) 中 ,并 在 每 一 步 自 助 法 中 利用 不 同 的 标准 误差 
$3 ,以 获得 渐 近 精炼 。 

这 两 种 自助 法 的 优点 是 ,不 需要 计算 s; ,其 中 ,*; 是 建立 在 渐 近 理论 基础 上 的 
通常 标准 误差 估计 值 。 

11. 2.7 秆 久 区 间 

绝 大 多 数 统 计 学 著作 都 考察 置信 区 间 估 计 , 而 将 假设 检验 放置 在 一 边 。 相 有 反 ， 
我 们 在 这 里 以 假设 检验 开始 ,不 过 有 必要 给 出 置信 区 间 的 一 个 简略 表述 。 

渐 近 精炼 建立 在 统计 量 基 础 之 上 ,是 渐 近 中 框 的 。 因 此 ,由 11. 2. 4 节 中 的 
步骤 1 一 3, 我 们 可 获得 自助 复制 的 上 统计 量 二 ，… 硅 。 于 是 , 设 六/ ,zj 与 旦 ,1 表示 
这 些 1 统计 量 的 品 下 a/2 与 加 上 a/2 分 位 数 。t 百 分 位 数 方法 (percentile-t method ) 
的 100(1 一 a) 百 分 数 置 信 区 间 是 : 

(0 十 1 Xi Out Xss) 1) (11. 6) 


C1 ] 原著 中 开 区 间 内 左边 数 为 6 一 /ziXsy ,应 为 和 十 (二 -wz1Xss。---- 译 者 注 
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其 中 ,90 与; ;分 别 是 来 日 最 初 样本 的 估计 值 与 标准 误差 ，。 

一 种 可 供 选 择 的 方法 是 埃 弗 龙 (Efron，1987) 曾 详 述 的 偏 倚 校正 与 加 速 (BC,) 
方法 | bias-corrected and accelerated (BC,) method |。 这 在 比 t 百 分 位 数 方法 更 广 
泛 的 问题 类 型 上 提出 了 渐 近 精炼 。 

虽然 其 他 一 些 方 法 提供 渐 近 有 效 置信 区 间 ,但 不 带 渐 近 精炼 。 首 先 , 人 们 能 够 
使 用 通常 置信 区 间 公 式 中 标准 误差 的 自助 法 估计 值 , 得 到 区 间 (0 一 ,2 X $3 poor? 
9 十 z[wy2] Xss 6 )。 其 次 , 百 分 位 数 方法 (percentile method) 置 信 区 间 是 9 的 B 次 自 
助 法 估计 值 07 ,…,08 的 向 下 a/2 与 向 上 a/2 的 分 位 数 的 距离 。 

11. 2.8 丛 倚 缩减 

通常 , 非 线 性 估计 量 在 有 限 样本 中 是 有 仿 的 ,尽管 如 果 这 个 估计 量 是 一 致 的 ， 
那么 偏 倚 会 渐 近 地 趋 于 0。 例 如 , 当 yi 通过 0 一 来 估计 时 ,EL9 一 jy 二 3po:/N 十 
EL(y 一 py) jj/N’ ,其 中 ,y; 服从 iid Lo 。 

更 一 般 地 讲 , 对 于 vV NN 一致 估计 量 来 说 ,有 : 


其 中 ,avw、pN 以 及 cw 都 表示 有 界 常 值 ,只 是 这 些 常 值 会 随 着 数据 和 估计 量 而 变化 
[参见 霍 尔 (Hall,1992 ,第 53 页 )]。 一 个 可 供 选 择 的 估计 量 8 提供 了 渐 近 精炼 ， 
如 果 


; _bBy,Cn... 
ELO 一 了 一 人 Tos Tt (11. 8) 
其 中 ,Bw 与 CN 都 表示 有 界 帝 但 。 当 N 一 ce 时 ,这 两 个 佑 计量 的 但 倚 均 会 消失 。 
后 者 因 其 偏 倚 以 较 快 的 速率 趋 于 0 而 引 人 注 目 ,因此 它 是 渐 近 精 炬 的 ,尽管 在 有 限 
样本 中 ,可 能 有 (CBN/N )> 盖 (anw/NT 二 ov/ N)。 


我 们 想 要 估计 偏 倚 EL4 ] 一 2。 这 是 参数 的 期 望 值 或 总 体 平 均值 与 参数 所 生成 
的 数据 之 间 的 距离 。 由 于 自助 法 代替 带 有 样本 的 总 体 , 所 以 自助 样本 是 通过 参数 


6 生成 的 , 它 具 有 关于 自助 法 的 平均 值 6*。 于 是 ,此 偏 倚 自 助 法 估计 值 (bootstrap 
estimate of the bias) 是 : 


Biasj 一 (6 一 0) (11. 9) 
其 中 ,6 已 在 式 (11. 4) 中 定义 。 

例如 ,假定 6 二 4, 且 0 一 5。 于 是 ,估计 的 偏 倩 是 (5 一 4) 一 1, 即 向 上 偏 傈 1。 
一 旦 给 定 偏 倚 修正 估计 为 3, 由 于 0 被 过 高 估计 到 1, 所 以 偏 傈 校正 需要 从 0 中 减 去 

1。 更 一 般 地 讲 ,9 的 自助 偏 倚 修正 估计 值 (bootstrap bias-corrected estimator) 是: 
0， 一 0 一 (0 一 0 (11. 10) 

一 26 一 0 

注意 到 ,0* 自 身 并 不 是 偏 全 修正 估计 值 。 关 于 校正 方向 看 起 来 邻 人 困惑 ,更 详细 内 
容 ,参见 埃 弗 龙 和 带 布 沙 兰 尼 (Efron and Tibsharani, 1993, 第 138 页 )。 对 于 典型 


的 VN 一 致 估计 量 来 说 ,6 的 渐 近 偏 倩 是 OCN-) ,而 G4 的 渐 近 偏 倚 是 OCN-?)。 

在 实际 应 用 中 ;对 于 VN 一 致 估计 量 , 偏 倚 校 正 几 乎 很 少 使 用 ,因为 与 最 初 估 
计 值 6 相 比 ,自助 法 估计 值 变化 更 大 ,而 且 其 偏 倚 常 常 相对 小 于 估计 值 的 标准 误 
差 。 自 助 法 偏 倚 校正 用 于 收敛 速率 小 于 v NN 的 那些 估计 量 ,尤其 是 非 参 数 回归 与 
密度 估计 量 。 


11.3 目 助 法 例子 


举 一 个 目 助 法 例子 ,考察 在 5. 9 节 引 和 人 的 指数 回归 模型 。 这 里 的 数据 是 由 指 
数 分 布 生 成 的 ,该 指数 分 布 的 指数 均值 具有 两 个 回归 元 : 
yi |X; 一 指数 (4;)， i 二 1,…,50 
:exp(p 二 Bx; 二 Bx3i) 
(x2; 373; ~ NMN|O.1, 0.1; 0.1:, 0.17, 0.005| 
(Bl, Be, Pa)—(—2, 2, 2) 
对 50 个 观测 值 的 样本 进行 极 大 似 然 估计 ,得 到 B == 一 2. 192,f 二 0. 267,s; 一 
1. 417, 而 ts 二 0.188; 并 且 8 = 4. 466, ss 二 1.741 而 4s 二 2.679。 就 这 个 ML 例 
子 而 言 ,标准 误差 建立 在 一 A ! 即 负 的 估计 海 赛 和 矩阵 逆 之 上 。 
我 们 集中 关注 对 记 的 统计 推断 ,并且 阐明 标准 误差 计算 .统计 显著 性 检验 . 置 
信 区 间 以 及 偏 倚 校 正方 面 的 自助 法 。 自 助 法 估计 与 通常 的 渐 近 估计 之 间 的 差异 在 
本 例 中 相对 较 小 ,但 在 其 他 例子 中 却 可 能 相当 大 。 
此 处 报告 的 一 些 绪 果 都 是 根据 以 放 回 方式 对 (ww ，xzz ，za ) 联 合 再 抽样 B 一 999 
次 的 成 对 自助 法 。 由 表 11. 1 知 ,999 自助 复制 估计 值 BB, ,具有 均值 4. 716 且 标 准 差 
1. 939,6 一 1,…,999。 表 示 11. 1 还 给 出 房 与 专 ( 下 面 将 要 定义 ) 的 重要 百 分 位 数 。 
表 11.1 关于 斜率 系数 的 自助 法 统计 推断 :例子 " 


Gs ts Zt1(00) t(47) 

均值 4.716 0. 026 1. 021 1. 000 
SD 1. 939 1. 047 1. 000 1. 021 
1% 一 0. 336 一 2. 664 一 2. 326 一 2. 408 

2. 5% 0. 501 一 2. 183 一 1.960 一 2.012 
5% 1. 545 一 1.728 一 1. 645 一 1.678 
25% 3. 570 一 0. 621 一 0. 675 —0. 680 
50% 4. 772 0. 062 0. 000 0. 000 
75% 5. 971 0. 703 0. 675 0. 680 
95% 7. 811 1. 706 1. 645 1. 678 
97. 5% 8. 484 2. 066 1. 960 2. 012 
99.0% 9. 427 2. 529 2. 326 2. 408 


， 概括 统计 量 与 百 分 位 数 都 建立 在 999 对 自助 法 再 抽样 之 上 ,关于 : (1) 估计 值 名 ; (2) 有 关 统 计 基 
呈 一 (前 一 局 )/ss: ;3) 具有 47 个 自由 度 的 学 生 1 分 布 ;(4) 标准 正 态 分 布 。 最 初 ,数据 生成 过 程 是 从 正文 
给 出 的 指数 分 布 中 所 抽取 的 ,样本 量 为 50。 

。 SD 表示 标准 差 ， 
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是 辐 呈 


然而 ,能 使 用 参数 自助 法 。 于 是 , 自助 法 样本 通过 从 具有 参数 exp (Bi 十 
pzz 十 pzs) 的 指数 分 布 中 抽取 y; 而 获得 。 不 过 ,在 对 日,: 8, 二 0 进行 检验 的 情 
况 下 ,该 指数 参数 可 以 是 exp(Bi 十 Bzxzi) ,其 中 ,Bi 与 Bs 都 是 来 自 最 初 样本 的 约束 
极 大 似 然 估计 值 。 

标准 误差 :由 式 (11. 3) ,标准 误差 的 自助 法 估计 值 可 对 B&B 的 999 次 自助 复制 
估计 利用 通常 的 标准 差 公式 来 计算 。 与 通常 的 渐 近 标准 误差 估计 值 1. 741 相 比 ， 
这 会 得 到 估计 值 1. 939。 注 意 到 ,这 一 自助 法 没有 提供 精炼 而 仅仅 用 作 核 对 ,或 者 
如 果 通 过 其 他 手段 被 证 明 很 难 求 出 标准 误差 。 

含有 渐 近 精炼 的 假设 检验 :我 们 考察 在 水 平 0.05 上 对 H。: B 一 0 与 HH,: 
房 和 0 进行 检验 。 含 有 渐 近 精炼 的 检验 建立 在 上 统计 量 之 上 ,是 渐 近 中 枢 的 。 由 
11. 2.6 节 知 ,对 于 每 个 自助 法 ,我们 都 可 以 计算 4; 二 (8; 一 4. 664)/s;,, 它 是 以 来 
自 最 初 样本 的 9, 二 4. 664 为 中 心 的 。 对 于 非 对 称 检验 来 说 ,自助 法 临界 值 等 于 z: 
的 999 个 值 中 间 上 与 向 下 的 2. 5 百 分 位 数 , 即 第 25 个 最 小 值 与 第 25 个 最 大 值 。 
由 表 11. 1 知 , 这 些 值 分 别 是 一 2. 813 与 2. 066。 由 于 来 自 最初 样 本 计算 出 的 1 统 
计量 上 三 (4. 466 一 0)7/1. 741 王 2. 679 盖 2. 066, 所 以 拒绝 零 假设 。 不 过 ,使 用 了 | | 
的 加 上 5 百 分 位 数 的 对 称 检验 ,得 到 自助 法 临界 值 2. 078, 这 再 次 导致 在 水 平 0. 05 
上 拒绝 五 。。 

在 这 个 例子 中 , 日 助 法 临界 倩 大 于 那些 利用 标准 正 态 的 或 上 47) 的 渐 近 近似 的 
临界 值 ,并 且 为 这 一 目的 而 安排 的 有 限 样 本 被 在 正 态 性 下 线性 模型 的 准确 结果 所 
激发 而 进行 调整 。 因 此 ,此 例子 中 通常 的 渐 近 结果 导致 了 过 度 拒 绝 ,同时 所 具有 的 
实际 水 平 大 于 名 义 水 平 。 例 如 ,在 58 上 ,= 区 域 临界 值 (一 1. 960，1960) 小 于 其 自 
助 法 临界 便 ( 一 2. 183，2066) 。 图 11. 1 画 出 建立 在 利用 核 方法 清光 化 的 上 检验 密 
度 t; 之 上 的 自助 法 估计 值 ,并 将 它 与 标准 正 态 情况 相对 比 。 这 两 个 密度 看 起 来 很 
接近 ,尽管 其 左边 尾部 显著 地 比 自助 法 估计 要 宽 一 些 ， 


! 统 计量 的 月 七 法 密度 





来 日 每 一 个 月 助 法 复制 的 + 统计 量 


11.1 关于 斜率 等 于 0 的 1 检验 统计 量 的 日 助 法 密度 可 从 999 次 自助 复制 中 获得 ,将 其 
与 融 出 的 具有 标准 正 态 密度 情况 相对 比 。 数 据 从 指数 分 布 回 归 模 型 中 生成 。 


HH 自助 法 


mr 


不 含 渐 近 精 炼 的 假设 检验 :可 以 使 用 一 种 可 供 选 择 的 自助 法 检验 方法 , 却 没有 
施加 渐 近 精炼 。 首 先 , 一 旦 利用 自助 发 标准 误差 估计 值 1. 939 , 而 不 是 渐 近 标准 误 
差 估计 值 1. 741 ,得 到 六 一 (4. 664 一 0)/1. 939 王 2. 405。 这 就 导致 在 水 平 0. 05 上 措 
绝 ,或 者 利用 标准 正 态 的 临界 值 ,或 者 利用 447)? 的 临界 值 。 其 次 ,由 表 11. 1 知 , 自 
助 法 估计 值 8; 的 95% 位 于 (0. 501, 8. 484) 之 中 ,并 没有 包括 所 假定 的 值 0, 因 而 ， 
我 们 再 次 拒绝 HH。: B=0。 

置信 区 间 : 渐 近 精炼 可 通过 利用 95% 百 分 位 数 1 置信 区 间 来 获得 。 当 应 用 式 
(11.6) 时 ,得 到 (4.664 一 2.183 X1.741，4.664 十 2.066 X1.741) 或 者 (0. 864， 
8. 260) 。 这 与 传统 的 95 %% 渐 近 置 信 区 间 (4. 664 一 1. 960X1. 741,4. 664 十 1. 960X 
1. 741) 或 者 (1. 25，8. 08) 相 比较 。 

能 建立 其 他 一 些 置 信 区 间 , 只 是 这 些 人 区 间 没 有 渐 近 精炼 。 一 旦 利用 自助 法 标 
准 误 差 估计 ,得 到 95%% 置 信 区 间 为 (0.864，8. 464) 王 4. 664 士 1. 960X1.939。 百 分 
位 数 方 法 使 用 999 自助 法 系数 估计 的 向 上 2. 5 与 向 下 2. 5 百 分 位 数 ,得 出 95 听 置 
信 区 间 (0. 501, 8. 484) 。 

偏 倚 校 正 :与 最 初 估计 值 4. 664 相 比 ,B 的 999 自助 复制 估计 的 均值 是 4. 716。 
特别 地 ,与 %% 二 1. 741 的 标准 误差 相 比 ,估计 偏 倚 (4. 716 一 4. 664) 一 0. 052。 人 和 估计 
偏 倚 是 向 上 的 ,而 且 巾 式 (11. 10) 得 到 , 记 的 偏 倚 修正 估计 等 于 4. 664 一 0. 052 一 
4. 612。 

自助 法 依赖 于 渐 近 理论 ,并 且 实 际 上 可 以 提供 有 限 样本 近似 ,与 传统 方法 相 比 
要 差 一 些 。 为 了 证 实 目 助 法 实 是 一 种 改进 ,这 里 我 们 需要 完全 蒙特 卡 罗 分 析 ,比如 
说 从 具有 指数 数据 的 生成 过 程 中 抽取 一 -个 容量 为 50 的 1000 个 样本 ,然后 对 这 些 
样本 的 每 一 个 进行 自助 法 ,比如 说 进行 999 次 。 


11.4 ”自助 法 理论 


本 节 解 释 遵 循 替 罗 维 菊 (Horowitz，2001) 的 全 面 概 述 。 一 些 重要 结果 是 关于 
自助 法 一 致 性 的 ,而 且 如 果 自 助 法 应 用 于 渐 近 中 枢 统 计量 上 , 那 就 是 渐 近 精炼 的 。 


11. 4.1 自助 法 


我 们 用 X;,…, Xw 作为 数据 的 一 般 记号 ,其 中 ,为 了 记号 简单 ,不 采用 黑体 
XX; ,即使 通常 它 是 一 个 问 量 ,例如 ( y;, Xi )。 假定 数据 是 从 具有 cdf Fo (x) 二 
Pr[ Xx 的 分 布 中 独立 抽取 的 。 在 最 简单 的 应 用 中 ,F。 是 有 限 维 数 族 ,满足 Fo 一 
ozy0o ) 。 

将 所 考察 的 统计 量 记 为 TAN=TNCX，…，XN)。TAN 的 准确 有 限 样 本 分 布 是 
GAN 一 Cn (Fo) 一 PrLTA 委 避 。 一 个 问题 是 求 出 对 Gn 的 良好 近似 。 

传统 渐 近 理论 使 用 Tw、 的 渐 近 分 布 , 记 为 G 一 G,(i,Fo)。 这 在 理论 上 可 能 
依赖 于 未 知 下 ,在 此 情况 下 ,我 们 利用 Fu 的 一 致 估计 。 例 如 ,使 用 F 王 已 (0 )， 
其 中 ,6 关于 b。 是 一 致 的 。 

经 验 上 自助 法 采取 一 种 截然 不 同 的 方法 通 近 Cn(*,Fo) 。 不 是 用 Ce- 代 蔡 GN ,而 
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是 用 Fo 的 一 致 估计 量 Fw ,比如 样本 的 经 验 分 布 代替 总 体 cdf F,。 

虽然 在 解析 形式 上 不 能 确定 Cv(*, ENv), 但 可 通过 自助 法 来 通 近 它 。 一 种 含 
有 放 回 自助 法 的 再 抽样 会 得 到 统计 量 Tx 二 Tw(X? ,…,XX)。 独 立 重复 这 一 步 又 
B 次 ,得 出 复制 TX,… ,TSB。T8,1，…，TR.8 的 经 验 cdf 是 工分 布 的 自助 法 估 
计 , 得 到 : 


B 
Gv,FW) = OTS, < (11. 11) 
b= 1] 


其 中 , 当 事 件 A 发 生 时 ,1(A) 等 于 1, 否则 1(A) 每 于 0。 这 正 是 关于 Tw 二 t 已 实现 
的 是 助 法 再 抽样 的 比例 。 
记号 已 总 结 在 表 11. 2 中 。 


表 11.2 目 助 法 理论 记号 


数 记 号 
样本 (iid) X1,… ,Xn， 其 中 ,X; 通常 表 示 问 量 
X 的 总 体 cdf Fo=F(xr , 6) 一 PrLX<zr] 
关注 的 统计 量 TAN 一 TNCXKI，XN) 
Tw 的 有 限 样本 cdf Gn=Gn(t, Fo)=PrL Ty < 
Tw 的 极限 cdf G..=G. (1t, Fo) 
Tw 的 渐 近 cdf G.,=G (1, ), 其 中 ,= 二 Fo(x, 0) 
Tw 的 自助 法 cdf ON Fv)=B 1D 1(T, TY) 


11. 4.2 自助 法 一 致 糙 


很 明显 , 当 自助 法 次 数 Bc ;时 ， 自助 法 估计 值 Gv (1， FN)] 收 伍 于 GNn(t, FN). 
因此 ,自助 法 估计 值 Gy (1，Fw) 关 于 Gn(t，F,) 的 一 致 性 需要 : 


(Cr\ (is. F,) 有 CC F,) 


这 里 ,关于 统计 量 是 一 致 的 ,并 且 是 对 于 使 cdf 存在 的 空间 中 的 所 有 F。 

显然 ,Fw 关于 Fo 必 是 一 致 的 。 另 外 ,需要 关于 dgp Fo (xz) 的 光滑 性 (smooth- 
ness) , 因此 ,对 于 很 大 的 NN, 在 一 些 观测 值 zx 上 ,Fn(x) 与 Fo(Cz) 一 致 地 互相 接近 。 
此 外 ,需要 关于 Gn(*，, 也 ) 的 光滑 性 , 即 所 考察 统计 量 的 cdf 作为 下 的 消 数 ,因而 ， 
当 NN 很 大 时 ,Gn(*，Fw) 接 近 Gn(*, Fo)。 

霍 罗 维 芯 (Horowitz，2001, 第 3 166 一 3 168 页 ) 给 出 两 个 正式 定理 ,一 个 是 一 
般 性 的 , 另 一 个 则 是 关于 iid 数据 的 ,同时 提供 自助 法 潜在 失效 的 一 些 例子 ,包括 中 
位 数 的 估计 以 及 具有 界 参 数 约束 的 估计 。 

受 限 于 Fw 关于 Fo 的 一 致 性 以 及 需要 Pr 与 Gn 的 光滑 性 ,日 助 法 会 产生 一 致 
估计 与 渐 近 有 效 推 新 。 自 助 法 在 相当 广泛 的 背景 下 是 一 致 的 。 


11. 4.3 埃 奇 活 因 展开 式 
自助 法 的 另 一 个 引 和 人 注目 之 处 是 , 它 考虑 到 了 渐 近 精炼 。 辛 格 (Singh，1981 ) 


管 经 提供 利用 埃 奇 沃 思 展 开 式 的 证 明 ,现在 我 们 就 加 以 介绍 。 


考察 Zw 二 ;XX;/ VN 的 渐 近 特性 ,其 中 ,为 了 简单 起 见 ,XX; 表示 标准 化 的 纯 量 
随机 变量 , 它 服 从 iid L0，1j。 然 后 ,应 用 中 心 极限 定律 ,得 到 Zw 的 极限 标准 正 态 
分 布 。 更 准确 地 讲 ,Zwn 具 有 cdf ; 


Gn(z)=Pr| ZnSz|= Bz)OCON 2 (11. 12) 


其 中 ,@ (0 ) 表 示 标 准 正 态 cdf。 余 项 可 被 忽略 ,并 且 常 规 的 渐 近 理论 可 通过 
C..(z) 一 串 (z) 来 通 近 GN(Cz) 。 

利用 中 心 极限 定律 可 推导 式 (11. 12) ,这 可 通过 对 Zw 特征 涌 数 (characteristic 
function) ELe*n ] 的 简单 近似 来 正式 推导 ,其 中 i 二 VvV 一 ] 。 一 种 较 好 的 近似 可 使 
这 个 特征 函数 以 六 车 形式 展开 。 通 常 的 埃 奇 沃 思 展开 式 (Edqgeworth expan- 
sion) 增 加 两 项 ,从 而 有 : 


Gn (z)—=Pr| Zn 夺 z |= Bz) + (之 ) 


2 3/2 

J 十 一 十 OON *) (11. 13) 
其 中 ,g1(z) 一 一 (xz 一 1)8(z) kx3/6,$8(*) 表 示 标 准 正 态 密度 ,xs 表示 Zn 的 第 三 个 
肥 积 量 , 而 天 于 gz《*，) 的 很 长 的 表达 式 是 由 罗 滕 伯 格 (Rothenberg，1984, 第 895 
页 ) 或 雨 官 (Amemiya, 1985, 第 93 页 ) 给 出 。 一 般 地 ,第 r+ 个 半 不 变量 和 17(cumu- 
lant)x, 是 对 数 特征 函数 或 累积 量 母 图 数 的 In(ELe”™*n 二 ok (i3)'/r! 级 数 展开 
式 中 的 第 > 个 系数 。 

式 (11. 13) 中 的 余 项 可 以 被 忽略 ,而 埃 奇 沃 思 展 开 式 可 通过 Ce (z，F ) 王 
DP(z) 十 N gi(z) 十 N igs(z) 来 表 近 Gn(z,， Fo)。 如 果 Zw 是 一 个 检验 统计 量 ， 
那么 这 能 用 于 计算 p 值 与 临界 值 。 否 则 ,对 式 (11. 13) 求 道 : 


h (>) h, (2) 


Pr| Zn+ A 十 和 <z ~@(2) (11. 14) 


其 中 , 阴 数 hi(z) 与 h,(z) 已 由 罗 滕 伯 格 (Rothenberg,，1984, 第 895 页 ) 给 出 。 其 左 
边 给 出 一 个 修正 统计 量 , 它 通过 标准 正 态 的 Zw 而 不 是 最 初 统计 量 Z、 得 到 较 好 的 
近似 。 

应 用 中 出 现 的 问题 是 ,Zn 的 半 不 变量 需要 计算 一 些 图 数 gl:(z) 与 g;(z) 或 者 
hi(z) 与 h;(z)。 对 于 这 些 半 不 变量 来 说 ,很 难 获 得 其 解析 表达 式 [ 例 如 , 萨 根 
(Sargan，1980) ;还 有 菲利普 斯 (Phillips，1983) ]|。 自 助 法 提供 一 种 数值 方法 来 实 
施 不 需要 计算 半 不 变量 的 埃 奇 沃 思 展 开 式 ,正如 下 面 所 证 明 的 。 


11.4.4 浙 近 精 炮 与 日 助 法 


现在 , 回 到 11. 4. 1 市 更 一 般 的 背景 上 ,额外 假设 是 Ty 具有 极限 分 布 且 可 应 


用 通常 的 v 六 渐 近 特性 。 
一 些 传统 的 渐 近 方法 ,使 用 极限 cdf G.,(i,F) 作 为 对 真实 cdf Gn (ty Eu ) 的 近 


[C12] 又 称 为 累积 量 。- 一 一 译 者 注 
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似 。 对 于 V 六 一 致 渐 近 正 态 估计 量 来 说 ,这 具有 如 下 误差 ,该 误差 极限 特性 拥有 
N “的 倍数 形式 。 我 们 将 其 写成 : 


Gn tsPo)=G, ,Fo) HOCON 2) C11. 15) 
其 中 ,G4, 了 ) 二 中 (4)， 
一 种 较 好 的 近似 是 ,可 能 利用 埃 奇 沃 思 展开 式 。 于 是 : 


GN FY)=GL GF,) + Eo) 1 g2t, Po) 0 +OCN 302) (11. 16) 
/N 


不 半 的 是 ,正如 已 注意 到 的 ,右边 晴 数 g1(*) 与 g;(:) 很 难 构 造 。 现 在 ,考察 自助 法 
估计 量 Gv (zt,Fw)。 由 埃 奇 沃 思 展 开 式 ,得 到 ， 


,上 上 
Gi FW) Gui PW te 


t+HON 2) C1.17) 
详细 内 容 参 见 霍 尔 (Hall，1992)。 自 助 法 估计 量 Gx (i, Fw) 可 用 于 通 近 有 限 样本 
的 cdf Gn (zt,Fo)。 当 用 式 (11. 17) 减 去 式 (11. 16) ,得 到 ， 
GNn (ty PFN)—GN(t, Fo)=|[ Gt, Fv)—G,, ,FPF,)| (11].18) 
[gi1(t,FN)— g(t, Fo) | -1 
有 十 OCN-!) 
假定 Fn 关于 真实 cdf F 是 一 致 的 ,所 以 Fw 一 忆 一 OCN 中 )。 对 于 连续 函数 G. 来 
说 , 式 (11. 18) 右 边 第 一 项 [G (1,Fv) 一 Ge (4 )] 是 OCN~), 因 而 Gx(t,Fw) 一 
Gn (t, Fo)=OCNT TE), 
因此 ,自助 法 近似 Gn (i,Fw) 一 般 并 不 比 通常 渐 近 近似 G. (i, ) 更 渐 近 地 接 
近 于 GN (t,o) ,参见 式 (11. 15) 。 
现在 ,假定 统计 量 T、 是 亲近 中 枢 的 (asymptoticaiiy pivotai) , 因 示 它 的 渐 近 分 
布 C- 不 依赖 于 未 知 参数 。 此 处 正 是 下 述 情 次 :如果 Tw 是 标准 化 的 ,那么 它 的 极 
限 分 布 是 正 态 分 布 。 于 是 ,G- (4,FN) 王 GG, Fo) ,因而 式 (11. 18) 简 化 成 : 


CN FN) 一 CNCFo) 一 和 LeoFN) 一 8 (1,F,) | 十 OOCN 一 ) (11.19) 


然而 ,由 于 Fn 一 Fo 二 OCN7 下 ), 所 以 对 于 下 中 连续 的 gi 来 说 ,我 们 有 Lg (i,Fw) 一 
gi(t,Po) | 一 OCN “人 )。 由 简化 结果 可 得 ,Gn (t,FN) 二 Gn (t;,) 十 O(N !1)。 现 
在 ,自助 法 近似 Gn(t,Fn) 是 CN(b5 Fo) 的 一 个 较 好 渐 近 近似 ,因为 其 误差 现在 是 
ON I)。 

总 之 ,就 渐 近 中 枢 统计 量 上 的 目 助 法 而 言 , 我 们 有 : 


GN t,o)—=GN (Fv) HOCNT TT) (11.20) 


它 是 对 传统 近似 Gn (i, 局 ) 二 G4, 书 ) 十 OCN 22) 的 一 种 改进 。 

因此 ,在 下 述 意 义 下 ,基于 渐 近 中 枢 统 计 景 的 自助 法 会 导致 一 种 改进 的 小 样本 
表现 。 设 a 是 检验 程序 的 名 义 水 平 。 通 常 的 渐 近 理论 会 产生 具有 真实 水 平 a 十 
OCN 一) 的 上 检验 ,而 自助 法 会 产生 具有 真实 水 平 c 十 OCN 一 ) 的 上 检验 。 

对 于 对 称 双 侧 假设 检验 与 置信 区 间 来 说 ,可 以 证 明 , 与 利用 通常 渐 近 理论 所 产 


生 的 放 差 OCN  ) 相 比 , 在 渐 近 中 枢 统计 量 之 上 的 自 勤 法 具有 近似 误差 O(N ) 。 

前 面 结 果 被 限制 在 渐 近 正 态 统计 量 上 。 对 于 卡 方 分 布 检验 统计 量 来 说 ,其 渐 
” 近 好 处 类 似 于 那些 对 称 双 侧 假 设 检验 。 借 其 于 自助 法 来 证 明 偏 倚 缩 减 ,参见 替 罗 
维 奖 (Horowitz，2001 ,第 3172 页 ) 。 

理论 分 析 会 产生 下 述 要 点 。 目 助 法 应 形成 关于 FF 一致 的 分 布 Fw 。 自 助 法 要 
求 关 于 Fo 与 Cn 的 光滑 性 以 及 连续 性 ,因此 这 时 需要 对 标准 自助 法 加 以 修正 , 例 
如 ,因为 参数 边界 约束 诸如 9 宇 0, 所 以 存在 不 连续 。 自 助 法 假定 低 阶 和 矩 存 在 ,因为 
低 阶 珍 积 量 出 现在 埃 奇 添 思 展 开 式 的 函数 gi 之 中 。 渐 近 精 炼 需 要 使 用 渐 近 中 枢 
统计 量 。 所 阐述 的 自助 法 精炼 均 假 定 iid 数据 ,因此 甚至 需要 修改 异 方 差 误差 。 对 
于 更 完整 的 讨论 ,参见 堆 罗 维 泣 (Horowitz，2001) 。 


11.4.5 自助 法 检验 功效 


自助 法 分 析 关 注 于 小 样本 具有 正确 水 平 的 检验 。 如 同 任何 水 平 校正 一 样 , 自 
助 法 的 水 平 校正 将 导致 检验 功效 的 变化 。 

从 直观 上 讲 , 当 利 用 一 阶 渐 近 检验 的 真实 水 平 大 于 名 义 水 平 , 具 有 渐 近 精炼 的 
自助 法 不 仅 减 少 名 义 水 平 大 小 ,因为 拒绝 会 很 少 发 生 ,而 且 也 减少 了 检验 功效 。 反 
之 ,当真 实 水 平 小 于 名 义 水 平 , 自 助 法 将 增 大 检验 功效 。 在 霍 罗 维 菩 (Horowitz， 
1994, 第 409 页 ) 的 模拟 应 用 中 ,观察 到 了 这 一 情况 。 有 意思 的 是 ,在 他 的 模拟 研 
究 中 发 现 ,尽管 渐 近 等 价 于 检验 的 自助 一 阶 会 产生 具有 类 似 真 实 水 平 ( 基 本 上 等 于 
名 义 水 平 ) 的 检验 ,但 在 不 同 的 自助 法 检验 中 ,检验 功效 存在 相当 大 的 差异 。 


11.5 目 助 法 推广 


至 今 , 所 述 的 自助 法 强调 基于 iid 数据 的 光滑 的 VN 一 致 渐 近 正 态 估 计量 。 下 
述 对 自助 法 的 推广 允许 在 更 广泛 范围 内 应 用 一 致 自助 法 (1. 5. 1 市 与 11. 5. 2 节 ) 
或 含有 渐 近 精炼 的 一 致 自助 法 (11. 5. 3 节 一 11. 5. 5 记 )。 对 于 这 些 更 高 等 的 方法 ， 
只 进行 简略 阐述 。 某 些 方法 将 在 11. 6 节 运 用 。 


11. 5.1 二 软 失 蓄 方 法 


二 次 抽样 方法 (subsampling method) 使 用 的 样本 量 本质 上 比 样 本 量 N 更 小 
一 些 。 二 次 抽样 可 以 是 放 回 的 [ 比 殉 尔 、 成 宋 和 范 。 次 韦 特 (Bickel，Cotze，and 
van Zwet，1997) ,也 可 以 是 不 放 回 的 [ 波 利 特 斯 和 罗 蕊 诺 (Politis and Romano， 
1994) j。 

放 回 二 次 抽样 提供 作为 总 体 的 随机 样本 的 子 样本 ,而 不 是 对 分 布 佑 计 的 随机 
样本 ,诸如 在 成 对 自助 法 (paired bootstrap) 情 况 下 的 样本 。 于 是 , 当 11. 4. 2 万 已 
经 讨论 的 光滑 性 条 件 失效 产生 完全 样本 自助 法 的 不 一 致 性 时 , 放 回 二 次 抽样 可 以 
是 一 致 的 。 不 过 ,有 关 检 验 或 置信 区 间 的 渐 近 误差 却 具有 比 使 用 不 带 精炼 的 完全 
样本 自助 法 所 获得 的 通常 O(N '”) 更 高 阶 的 量 。 

当 完 全 样本 自助 法 无效 的 时 候 , 子 样本 是 有 益 的 ,或 者 作为 验证 完全 样本 日 助 
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法 为 有 效 的 一 种 方法 。 其 结果 将 随 子 样本 量 的 选择 而 有 所 不 同 。 此 外 , 由 于 使 用 
样本 较 小 部 分 ,所 以 会 相当 大 地 增加 样本 误差 。 实 际 上 ,我 们 应 该 具有 (zz/N)->0 
且 N 一 oo。 波 利 特 斯 、 罗 马 诺 和 活 尔 夫 (Politis,， Romano, and Wolf，1999) 以 及 雹 
罗 维 菊 (Horowitz，2001) 都 提供 更 进一步 的 详情 。 


11. 5.2 移动 分 块 有 日 助 法 


移动 分 块 自 助 法 (moving blocks bootstrap) 用 于 数据 相关 的 而 不 是 独立 的 情 
况 。 这 要 将 样本 分 割 成 > 个 非 重 秋 的 .长 度 为 ! 的 块 (blocks) ,其 中 ,rl 二 N。 首 先 ， 
人 们 从 这 些 块 中 进行 放 回 抽样 ,得 到 > 个 新 的 分 块 , 这 会 具有 不 同 于 原来 > 个 块 的 
临时 排序 。 然 后 ,人 们 利用 这 种 自助 法 样本 估计 参数 。 移 动 分 块 方法 是 ,将 随机 抽 
取 的 块 作为 每 一 个 都 互相 独立 ,只 允许 块 内 出 现 相 关 。 安 德 森 (Anderson，1971 ) 
实际 上 使 用 过 类 似 分 块 来 推导 m 个 相依 过 程 的 中 心 极限 定理 。 移 动 分 块 过 程 要 
求 , 当 N 一 co 时 一 ~co ,以 确保 我 们 可 能 推导 相 邻 组 每 一 个 都 不 相关 。 还 要 求 , 当 
N 一 co 时 ,分 块 长 度 /一 ce。 例 如 ,参见 约 策 和 和 孔 施 (Gotze and Kiinsch，1996 ) 。 


11. 5.3 艇 入 式 日 助 法 


由 霍 尔 (Hall,，1986) 、 贝 兰 (Beran，1987) 与 隆 (Lon，1987) 引 进 的 嵌 套 式 自助 
法 (nested bootstrap) 是 日 助 法 之 中 套 目 助 法 。 当 自助 法 不 是 建立 在 渐 近 中 枢 的 统 
计量 之 上 时 ,这 一 方法 尤其 有 用 。 特 别 地 , 若 很 难 计 算 信 计 值 的 标准 误差 , 则 人 们 
可 对 当前 自助 法 样本 运用 自助 法 来 获得 自助 法 标准 误差 估计 值 \。， ， ,并 构成 
太一 (0 — 0) /sp ,pp ;然后 对 上 自助 法 复制 二,…,tp 运用 百 分 位 数 1 方法 。 这 使 
洒 近 精 炬 成 为 可 能 ,而 单一 自助 法 是 无 法 实现 的 。 | 

更 一 般 地 讲 ,迭代 自助 法 (iterated bootstrapping) 是 一 种 通过 估计 源 自 经 过 一 
次 日 助 法 的 误差 (也 就 是 偏 倚 ) 并 且 修 正 这 些 误 差 而 改进 上 自助 法 效果 的 方法 。 通 
常 ,如 果 统 计量 是 渐 近 中 枢 的 ,那么 自助 法 的 每 一 次 进一步 迭代 都 会 减少 偏 倚 系 数 
和 N 一 ,否则 减少 偶 倚 系数 N_'。 参 见 霍 尔 和 马丁 (Hall and Martin，1988) 给 出 的 
一 种 良好 解释 。 如 来 在 每 一 次 迭代 中 都 执行 B 次 自助 法 ,那么 当 存 在 & 次 迭代 ,就 
要 求实 施 B* 日 助 法 。 鉴 于 此 ,至 多 执行 两 次 迭代 , 称 为 双 迭 代 (double bootstrap) 
或 者 标定 自助 法 (calibrated bootstrap ) 。 

戴维森 、 欣 克利 和 谢 克 特 曼 (Davison，Hinkley，and Schechtman，1986) 闸 经 
提出 平 街 目 助 法 (balanced bootstrapping) 。 这 种 方法 保证 了 每 个 样本 观测 值 都 是 
准确 地 重复 使 用 所 有 如 次 月 助 法 的 相同 数目 ,得 出 一 个 更 好 的 自助 法 估计 。 有 关 
实施 内 容 , 参 见 格 利 条 (Gleason，1988) ,他 的 算法 与 通常 非 平衡 自助 法 相 比 ,只 是 
增加 一 点 计算 时 间 。 


11.S.4 重新 中 心 化 与 再 标 度 


为 了 获得 渐 近 精炼 , 目 助 法 应 建立 在 对 正 考虑 的 模型 施加 所 有 条 件 的 数据 生 
成 过 程 Fe 的 估计 值 Fo 之 上 。 一 个 重要 例子 是 含有 残 差 的 自助 法 。 
在 非 线 性 模型 中 ,甚至 在 线性 模型 中 , 当 没 有 稚 距 时 ,最 小 二 滋 法 残 差 之 和 不 
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为 0。 于 是 ,建立 在 最 小 二 乘法 残 差 之 上 的 残 差 自 助 法 (参见 11. 2. 4 节 ) 就 利用 约 
束 ElLu;j 二 0 而 言 将 失效 。 相 反 , 残 差 自 助 法 应 该 对 重新 中 心 化 残 差 (recentered 
residual) 立 一 立 进 行 自助 法 ,其 中 ,一 NN 2 六 jz。 类 似 地 ,重新 中 心 化 应 该 在 过 度 
识别 模型 中 对 GMM 估计 量 的 序 实施 自助 法 (参见 11. 6. 4 节 )。 

对 残 差 重新 标 度 (rescaling) 也 是 有 用 的 。 例 如 ,在 含有 iid 误差 的 线性 回归 模 
型 中 ,从 CN/CN 一 KK)) ?th; 中 再 抽样 ,因为 这 些 都 具有 方差 站。 其 他 一 些 调整 包括 
利用 标准 化 残 差 妆 /w (1 一 hi)s ,其 中 ,和 司 表 示 射 影 矩 阵 XCX XX)-!1X 中 的 第 i 个 对 
角 元 素 。 


11. 5.5 刀 切 潜 


自助 法 能 用 于 偏 倚 修 正 ( 参 见 11. 2. 8 节 )。 一 种 可 供 选 择 的 再 抽样 方法 是 刀 
切 法 , 即 自助 法 的 前 身 。 刀 切 法 使 用 N 个 规定 性 定义 的 样本 量 为 N 一 1 的 子 样本 ， 
它们 是 通过 依次 去 掉 六 个 观测 值 中 的 每 一 个 而 获得 的 ,然后 重新 计算 其 估计 量 。 

为 了 理解 刀 切 法 是 如 何 起 作用 的 , 设 bxv 表示 利用 所 有 N 个 观测 值 的 0 的 人 
计 值 ,同时 设 Ov -表示 前 (CN 一 1) 个 观测 值 9 的 估计 值 。 如 果 式 (11. 7) 成 立 。 那 么 
E[On]=0+an/N+bv/N: 十 OON-) ,而 且 E[TON_]=0 十 avw/CN 一 1) 十 OACON 一 
1)2 十 OCN-) ,这 蕴含 ELNON 一 CN 一 DO]=0+TOCN-)。 因 而 ,与 bw 偏 倚 相 
比 , NON 一 (CN 一 1)0N- 的 偏 傈 更 小 。 

可 是 ,此 估计 量 更 易 变 化 ,因为 它 使 用 较 少 的 数据 。 举 一 个 例子 ,倘若 0 二 y， 
新 的 估计 量 就 是 yw , 即 第 NN 个 观测 值 。 同 理 , 此 变异 能 通过 去 掉 每 个 观测 值 且 进 
行 平均 而 得 以 减少 。 

于 是 ,更 正式 地 ,考察 建立 在 源 自 iid 数据 的 样本 量 N 之 上 的 参数 向 量 6 的 估 
计量 6 。 对 于 i 一 1,…, NN, 顺 次 删除 第 i 个 观测 值 ,进而 从 NN 个 刀 切 法 再 抽样 容量 
为 (N 一 1) 的 样本 中 获得 N 个 刀 切 复制 估计 值 9.-;。9 偏 倚 的 刀 切 法 估计 值 (jack- 
knife estimate of the bias) 是 (N 一 1) (6 —0) ,其 中 ,0=N-! 5),6,_, 表示 N 个 刀 切 
法 复制 0 的 平均 。 由 于 用 (CN 一 1) 相 乘 , 偏 倚 看 起 来 似乎 很 大 ,但 其 差 (9_， 一 6 ) 
却 比 自助 法 情况 下 的 小 很 多 ,因为 刀 切 法 再 抽样 样本 不 同 于 原始 样本 ,仅仅 相差 一 
个 观测 值 。 

这 就 产生 对 8 刀 切 法 估计 值 jackknife estimate) 的 偏 倚 校 正 : 


6 一 0 一 (N 一 1)(08 一 6) (11. 21 ) 
王 N6 一 CN 一 1)6 

这 使 偏 们 从 OCN 1!) 缩减 到 OCN 司 ) ,这 与 自助 法 情况 的 偏 倚 缩 减 是 同 阶 的 。 至 于 
自助 法 ,假定 其 估计 量 是 光滑 的 VN 一 致 的 佑 计量 。 刀 切 法 估计 与 8 相 比 ,具有 增 

大 的 方差 ,并 且 刀 切 法 失效 的 一 些 例 子 已 由 米 勒 (Millor，1974) 给 出 。 
一 个 简单 的 例子 是 ,来 自满 足 y; 一 Lx, oj] ud 样本 对 oo 的 估计 。 估 计 值 6* 二 
N12,(y; 一 了 )? ,MLE 在 正 态 性 下 具有 EL6] 二 2 (CN 一 1)/N, 因 此 ,其 偏 倚 等 于 
o/N, 它 是 一 个 OCN )。 在 此 例子 中 ,可 以 证 明 , 刀 切 法 估计 被 简化 成 65 二 
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(N 一 1) (yi 一 了 ,人 们 并 不 要 求 计算 N 个 独立 的 估计 值 6? , 。 这 是 忆 的 一 
个 无 偏 佑 计 值 ,因而 该 偏 倚 实 际 上 是 0 ,而 不 是 通常 的 O(CN-2:) 结 果 。 

刀 切 法 归功 于 克 努 取 (CQuenouille，1956) 。 网 基 (CTukey，1958) 考 虑 了 在 更 广 
泛 统 计 学 中 的 应 用 问题 。 特 别 地 ,估计 量 9 的 标准 误差 刀 切 法 估计 值 是 ; 


本 
SaanLO ] 一 过 (0 一 62 | (11. 22) 


图 基 通 过 仿照 可 以 求解 各 种 问题 的 多 功能 武器 库 (Boy Scout jackknife， 又 译 为 童 
了 于 这 大 思 ) 提 出 了 刀 切 法 术语 ,其 中 的 每 一 个 都 通过 特殊 构造 的 工具 得 以 更 有 效 地 
解决 。 

在 许多 情形 下 , 刀 切 法 是 用 于 缩减 偏 倚 “ 粗 略 但 尚 能 使 用 ”的 方法 ,但 它 不 是 任 
何 情况 下 的 理想 方法 。 刀 切 法 能 被 看 成 是 自助 法 的 一 种 线性 近似 [ 埃 弗 龙 和 蒂 布 
沙 兰 尼 (Efron and Tibsharani，1993 ,第 146 页 ) ]。 在 小 样本 条 件 下 ,与 自助 法 相 
比 , 它 要 求 较 少 的 计算 ,从 而 N 二 B 是 可 能 的 , 却 胜 过 当 B->ce 时 借助 于 自助 法 。 

考察 线性 回归 模型 y 一 XB 十 u, 满 足 B= ( XX)-!1X'y。 源 自 OLS 回归 的 偏 倚 
估计 量 的 例子 是 ,含有 注 后 因 变 量 作 为 回归 元 的 时 间 序 列 模型 。 基 于 第 i 个 刀 切 
法 样本 (X_;, ,yc» ) 的 回归 估计 量 是 由 


局 一 [XC_ A lm X: -DY 
—[X X—xx | '(X y—xy,) 
一 B—[XX] 'x(y;—x GB.») 
给 出 的 。 第 三 个 等 式 避 开 了 对 每 个 i 需要 求 X，;X.; 道 ,而 这 可 利用 


) --1 / | 一 1 
[XX | Ke; Xe | 1 x [XX | x; 


求 得 。 此 处 , 伪 值 (pseudo-values) 是 由 NB 一 (N 一 1) B ;给 出 的 ,并 且 B 的 刀 切 法 
估计 量 由 


” 和 


fa =N6 一 (CN 一 D 广 >， Bs (11. 23) 
给 出 。 
刀 切 法 对 侦 倚 缩减 的 有 趣 应 用 是 刀 切 法 IV 估计 量 ( 参 见 6. 4. 4 节 )。 

11.6 自助 法 应 用 
我 们 考察 典型 考虑 到 微观 经 济 计 量 中 一 些 复杂 问题 的 自助 法 的 应 用 ,诸如 异 
方差 性 .聚集 以 及 能 导致 简单 自助 法 失效 的 复杂 估计 量 。 


11.6.1 蜡 万 郑 人 性 族 孝 


对 于 含有 刊 方 差 性 的 、 可 加 误差 模型 的 最 小 二 乘 法 来 说 ,标准 方法 是 使 用 怀特 
异 方 差 性 一 致 协 方差 矩阵 估计 量 (HCCME)。 众 所 周知 ,对 小 样本 而 言 ,这 样 做 表 


i 


现 不 好 。 要 是 做 得 正确 ,自助 法 会 提供 一 种 改进 。 

成 对 自助 法 会 导致 有 效 推断 ,因为 (y;,， x;) 是 iid 的 基本 假设 还 允许 VLu lx 
随 x; 而 变化 (参见 4. 4.7 节 )。 不 过 , 它 并 没有 提供 一 种 渐 近 精炼 ,因为 它 没有 逢 
用 El u.; [x; j=0 这 一 条 件 。 

通常 的 残 差 目 助 法 确实 导致 无 效 推断 ,由 于 它 假定 jx 为 iid 的 ,因此 错误 利 
用 了 同方 差 误 差 的 条 件 。 依 据 11. 4 节理 论 , 玉 关于 FF 是 非 一 致 的 。 人 们 能 设 定 异 
方差 性 的 正式 模型 9 比如 说 Ui 一 exp(zia )Ee; ,其 中 ,Ei 是 l1d 的 ,得 到 估计 值 exp (zia) 9 
然后 对 隐 含 残 差 s; 进行 自助 法 。 这 种 自助 法 的 一 致 性 与 渐 近 精炼 都 要 求 对 异 方 
差 性 函数 形式 加 以 正确 设 定 。 

原始 自助 法 (wild bootstrap) 是 由 吴 CWu，1986) 与 刘 (Liu，1988) 引 进 的 ,而 马 
上 怠 (Mamme,1993) 做 出 进一步 研究 ,提供 对 异 方 差 性 没有 利用 这 类 结构 的 渐 近 精 
炬 。 这 种 自助 法 是 用 下 述 残 差 : 


了 一 /5 . . 1 十 V5 
~ Nn —0.6180., 以 概率 一 ~ 一 0. 723 6 
2 率 7 /5 
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1- jt 618 0 zn;， 以 概率 1 ~0. 276 4 
仅 对 两 点 分 布 取 期 望 ,并 经 过 某 些 代 数 运 算 , 得 到 E[ 避 1 一 0, EL jj] 二 避 , 而 
ELa | 二 在 。 因 而, 避 产生 了 人 们 希望 的 零 条 件 均 值 ,因为 EL 必 |z;,xij] 二 0 蕴含 
ELa |x; jj] 二 0, 而 二 阶 窍 与 三 阶 甜 都 是 不 变 的 。 

原始 自助 法 再 抽样 拥有 第 i 个 观测 值 (y* ,x), 其 中 y* 二 xiB 十 必 。 由 于 次 
的 实现 值 各 不 相同 ,所 以 再 抽样 会 变化 。 霍 罗 维 交 (Horowitz，1997，2001) 通 过 模 
拟 证 明 , 当 存在 异 方 差 性 时 ,这 种 自助 法 与 成 对 自助 法 相 比 执行 得 更 有 效 , 其 至 不 
存在 异 方差 性 时 ,也 比 其 他 自助 法 执行 得 好 。 

看 起 来 令 人 惊讶 , 因为 就 第 i 个 观测 值 而 言 , 它 仅 仅 从 两 个 可 能 残 差 值 
一 0. 618 0&; 或 1. 618 02 中 抽取 ,这 种 自助 法 应 该 起 作用 。 可 是 ,对 于 所 有 NN 个 观 
测 值 与 所 有 B 次 自助 法 迭代 可 进行 类 似 的 抽取 。 辣 样 回 想起 ,怀特 的 估计 量 是 用 
a 代替 ELwi], 它 尽管 对 一 个 观测 值 是 不 正确 的 , 却 对 样本 平均 值 而 言 是 有 效 的 。 
然而 ,原始 自助 法 从 服从 均值 为 0 且 方 差 为 这 的 两 点 分 布 中 进行 抽取 。 


11.6.2 面 蕉 数据 与 丈 群 数据 
考察 线性 面板 回归 模型 : 
Vi 一 三 18 十 赤 
其 中 ,i 表示 个 体 , 而 t 表示 时 期 。 遵 循 21. 2. 3 节 的 记号 ,例如 ,添加 ~ 表示 原始 
数据 yi ,并 首先 对 xz 进行 变换 剔除 固定 效应 。 我 们 假定 ,误差 不 对 不 同 ; 是 独立 
的 ,尽管 ,可 能 是 异 方差 的 ,并 且 给 定 i 时 对 i 来 说 是 相关 的 。 


当面 板 是 短 的 , 故 本 是 有 限 的 ,而 且 渐 近 理 论 依赖 于 N->oo, 故 6 的 一 致 标准 
误差 能 通过 成 对 自助 法 或 EDF 自助 法 来 获得 ,这 里 对 不 同 i 进行 再 抽样 , 却 不 是 


对 不 同上 进行 再 抽样 。 在 前 面 表述 中 , w; 变 成 Lyii ,Xi yiT ,XiTj ;从 而 我 们 对 i 
进行 再 抽样 而 获得 选 定 i 的 全 部 工 个 观测 值 。 

这 种 面板 自助 法 (panel bootstrap ) 也 称 为 分 块 日 助 法 (block bootstrap) , 它 同 
样 可 用 于 第 23 草 的 非 线性 面板 模型 。 其 重要 假设 是 ,面板 是 短 的 且 数 据 对 不 同 的 
i 是 独立 的 。 更 一 般 地 讲 , 俏 知 群 容量 是 有 限 的 ,并 且 整 群 数目 趋 于 无 穷 大 , 当 数 据 
是 整 群 的 (参见 24. 5 节 ) ,就 可 以 应 用 这 种 自助 法 。 

面板 自助 法 可 产生 半 近 等 价 于 面板 稳健 三 明治 误差 的 标准 误差 (参见 21. 2. 3 
节 )。 它 却 不 会 产生 渐 近 精炼 。 不 过 , 它 执行 起 来 相当 简单 ,同时 在 实践 上 相当 有 
用 ,尽管 甚至 关于 十 分 基本 的 面板 估计 量 , 诸 如 同和 定 效 应 佑 计量 ,许多 软件 包 并 没 
有 上 自动 地 提供 面板 稳健 标准 误差 。 倘 看 册 抽 样 又 一 次 地 仅仅 对 进行 ,其 他 一 些 
自助 法 ,比如 参数 自助 法 与 残 差 日 助 法 ,可 能 是 可 行 的 ,但 要 依赖 于 应 用 而 定 。 

若 误 差 是 iid 的 , 则 浙 近 精炼 就 容易 做 。 不 过 ,更 现实 地 讲 ,i 将 是 异 方 差 的 且 
对 给 定 i 时 不 同上 是 相关 的 。 如 果 面 板 是 短 的 ,那么 线性 模型 中 的 原始 自助 法 ( 参 
见 11. 6.1 节 ) 应 提供 渐 近 精炼 。 然 后 ,原始 自助 法 再 抽样 具有 (i, 四 个 观测 值 (3; ， 
Wi ) ,其 中 ,> 一 多, 十 让 ,i = Vi —W0 ,而 牙 *: 表示 从 11., 6. 1 节 给 出 的 两 点 分 
布 中 所 抽取 的 。 


11. 6.3 假设 检验 与 设 定 检验 


11. 2. 6 节 曾 关注 对 假设 9 二 的 检验 。 这 里 ,我 们 考察 更 一 般 的 检验 。 如 同 
11. 2. 6 节 一 样 ,自助 法 可 用 于 执行 含有 渐 近 精炼 或 不 含 渐 近 精炼 的 假设 检验 。 
不 含 渐 近 精 炼 的 检验 
自助 法 无 效 的 一 个 重要 例子 是 豪 斯 曼 检验 (参见 8. 3 节 )。 执 行 这 种 标准 检验 
需要 估计 VL6 一 9, 其 中 ,6 与 6 是 两 个 相互 比较 的 估计 量 。 要 获得 该 估计 值 很 困 
难 , 除 非 做 出 强 假 设 : 两 个 估计 量 之 一 在 互 。 下 是 完全 有 效 的 。 不 过 ,运用 成 对 目 
1 


B _ _ _ 
Vpoa[ 0 一 9 一 万 一 > [C0 —07 )— (0°—0°) [C0 一 把 )—(0*—0°)] 
b=1 


其 中 ,0 一 忆 200 , [从 0 =B > 。 然 后 ,计算 : 

H 一 (6 —0) (Vaw#[L0 —01) '(0 —0) (11. 24) 
同时 与 卡 方 临界 值 比较 。 正 如 第 8 章 提 及 的 ,需要 使 用 广义 道 , 并 且 要 小 心间 慎 ， 
确保 利用 正确 自由 度 来 获得 卡 方 临 界 值 。 

更 一 般 地 讲 , 这 一 方法 可 用 于 任何 执行 起 来 很 困难 的 标准 正 态 检验 或 卡 方 分 
布 检验 ,因为 必须 要 估计 方差 。 一 些 例子 包括 ,基于 两 步 估 计量 的 假设 检验 以 及 第 
8 章 的 m 检验 。 

含有 渐 近 精炼 的 检验 

许多 检验 尤其 是 那些 完全 参数 模型 ,比如 LM 检验 与 IM 检验 ,都 能 利用 辅助 
回归 来 直接 进行 (参见 7. 3. 5 节 和 8. 2. 2 节 )。 不 过 ,作为 结果 的 检验 统计 量 在 有 
限 样 板 中 执行 欠 佳 ,正如 许多 蒙特 卡 罗 研 究 所 证 实 的 。 这 类 检验 统计 量 很 容易 计 


二 一 本 mm 到 


算 , 并 且 是 渐 近 中 枢 的 ,因为 卡 方 分 布 并 不 依赖 于 未 知 参 数 。 原 因 在 于 它们 是 通过 
目 助 法 进行 渐 近 精炼 的 重要 备 选 者 。 

考察 Ho 的 m 检验 :ELm,(y; | X; ,0) | 二 0 与 H.,: El my; ] xX, ,0) |] 居 0( 参 见 8.2 
节 )。 由 最 初 数 据 ,通过 ML 估计 8 ,并 计算 检验 统计 量 M。 一 旦 利用 参数 自助 法 ， 
从 拟 合 条 件 密度 f(y; |x; ,0 ) 中 再 抽样 y* ,对 于 重复 样本 中 的 固定 回归 元 来 说 ,或 
者 从 fyi |x; ， 0 ) 中 进行 再 抽样 yi 。 计算 目 助 法 再 抽样 样本 中 的 Me ,b=1,.…, 
B。 当 最 初 计算 的 统计 量 M 大 于 Mi 的 a 分 位 数 时 ,在 水 平 a 上 就 拒绝 肌 ,, 5 一 
1,.…,B. 

霍 罗 维 菊 (Horowitz，1994) 已 经 阐述 过 IM 检验 的 这 种 自助 法 ,并 利用 关于 这 
种 目 助 法 的 坚实 的 有 限 样本 好 处 例子 来 加 以 证 明 。 德 鲁 克 (Drukker，2002 ) 对 
Tobit 模型 给 出 了 设 定 检验 的 一 个 详细 应 用 , 提出 条 件 和 矩 设 定 检验 很 容易 地 应 用 于 
完全 参数 模型 ,因为 辅助 回归 中 的 任何 水 平 扭曲 (size distortion) 能 通过 自助 法 加 
以 修正 。 注 意 到 ,不 含 渐 近 精炼 的 自助 法 检验 ,诸如 此 处 给 出 的 豪 斯 曼 检 验 , 可 借 
助 于 11. 5. 3 节 给 出 的 艇 和 人 式 上 自助 法 加 以 精炼 。 


11. 6.4 过 度 识 别 GMM、 最 小 距离 与 经 验 似 然 


GMM 估计 量 是 建立 在 总 体 算 条件 ELh(Cw; ,9)]=0 之 上 的 (参见 6. 3. 1 节 )。 
在 恰好 识别 模型 中 ,一致 估 计量 可 直接 求解 N 2hCwi,b )] 一 0。 在 过 度 识 别 模 
型 中 ,这 种 佑 计量 不 再 可 行 。 相 反 , 却 可 使 用 GMM 估计 量 ( 人 参见 6. 3. 2 节 )。 

现在 ,考察 利用 成 对 自助 法 或 EDF 自助 法 来 进行 自助 。 对 于 过 度 识 别 模 型 中 
的 GMM 来 说 ,N DihCw: ,9) 天 0, 所 以 此 自助 法 没有 对 自助 法 再 抽样 样本 施加 
最 初 的 总 体 约束 ELh(Cw ,9)j=0。 因 此 ,即使 可 以 使 用 渐 近 中 枢 上 统 计量 ,也 不 存 
在 自助 法 精炼 ,但 6 的 自助 法 与 有 关 的 置信 区 间 以 及 上 检验 统计 量 仍 是 一 致 的 。 
更 为 基本 的 是 ,可 以 证 明 ,OIR 检验 的 自助 法 (参见 6. 3. 8 节 ) 是 非 一 致 的 。 我 们 虽 
然 关 注 于 横 截 面 数据 ,但 过 度 识别 模型 中 的 面板 GMM 估计 量 ( 参 见 第 22 章 ) 却 会 
产生 类 似 的 问题 。 

蚌 尔 和 起 罗 维 次 CHall and Horowitz，1996) 提 供 了 通过 重新 中 心 化 (recentering) 
来 对 此 加 以 修正 。 于 是 ,自助 法 就 建立 在 BY(w,0 ) 一 hCw,0) 一 NI how,b) 
之 上 ,并 且 对 于 建立 在 包括 OIR 检验 基础 的 9 上 的 统计 量 来 说 ,可 获得 渐 近 精炼 。 

韦 罗 维 次 CHorowitz，1988) 对 最 小 距离 佑 计量 (参见 6.7 节 ) 做 出 了 类 似 的 重 
新 中 心 化 。 然 后 ,他 把 该 自助 法 应 用 于 6. 3. 5 节 中 曾 讨论 过 的 奥 尔 顿 吉 和 西 格 尔 
(Altonji and Segal，1996) 的 协 方差 结构 例子 上 。 

一 种 可 供 选 择 的 调整 是 由 布 明 和 纽 志 (Brown and Newey，2002) 提 出 的 , 它 没 
有 进行 重新 中 心 化 , 却 以 随 不 同 观 测 值 而 变化 的 而 非 利 用 等 于 1/N 权 数 的 概率 再 
抽样 观测 w 。 特 别 地 , 设 Pr[w' 王 w] 王 元 ,其 中 , 亢 一 (1 十 Mbh),h 一 h(w ,9 ), 而 入 
使 ;ln(1 十 Xh;) 最 大 化 。 其 动机 是 ,概率 7 等 同 于 求解 >,jn 元 ; 关于 Tl 9""*9NMN 的 
最 小 化 (参见 6. 总 . 2 节 ) 的 经 验 似 然 (EL) 问 题 , 使 得 约束 xjh;= 二 0 目 > ;和 r; 一 上 |。 因 
此 ,GMM 估计 量 的 这 种 经 验 似 然 自 助 法 (empirical likelihood bootstrap) 利 用 了 约 
东 327iih; 二 0。 z 


微观 经 济 计量 学 

不 过 ,一 旦 设 6 表示 EL 估计 量 而 不 是 GMM 估计 量 , 人 们 可 以 从 开始 就 直接 
利用 EL 进行 研究 。 布 朗 和 纽 书 (Brown and Newey，2002) 的 方法 优点 是 , 它 避 开 
了 对 EL 估计 量 进行 计算 的 更 具 挑 战 性 的 问题 。 相 反 , 人 们 只 需要 GMM 估计 量 ， 
并 求解 最 小 化 ;ln(1 十 hj) 的 四 规划 问题 。 


11. 6.5 寿 参 数 回 妇 


非 参 数 密度 与 回归 估计 量 都 以 比 vVN 小 的 速率 收敛 ,并 且 是 渐 近 有 依 的 。 这 
会 使 诸如 置信 区 间 推 断 错综复杂 (参见 9. 3. 7 节 与 9. 5.4 节 )。 

我 们 考察 m(z,) 二 ELy|x 二 xoj 的 核 回 妇 估 计量 专 (xo), 其 中 ,观测 和 值 (y,xz) 是 
iid 的 ,尽管 允许 出 现 条 件 异 方差 性 。 由 霍 罗 维 芯 (Horowitz，2001, 第 3 204 页 ) 
知 , 渐 近 中 枢 统 计量 是 : 

/一 区 (Zao) 一 mo 1 

其 中 ,到 (zo) 表 示 具 有 带宽 j=oCN 0) ,而 不 是 最 优 产 王 OCN 到) 的 光滑 不 足 核 
回归 估计 量 , 同 时 : 


2 
号 


mx ) 


-i 一 坟 (x) :KK(= ze) 

其 中 ,f(zxo) 表 示 密 度 FCz) 在 zx 一 z 处 的 核 估计 值 。 成 对 自助 法 再 抽样 (y* ,x' )， 
从 而 形成 ts =L7ns (xo) —m( zo ) /sac 6 , 其中， $a ) ;是 利用 目 助 法 样本 核 估 计 值 
(zi) 与 广 (zo) 而 计算 出 来 的 。 于 是 ,11. 2.7 节 的 分 位 数 上 置信 区 间 提 供 了 渐 近 
精炼 。 对 于 对 称 置信 区 间或 a 水平 上 的 对 称 检验 来 说 ,其 误差 是 oCN7'h) ,而 不 是 
利用 一 阶 渐 近 近似 的 OCN7'h)， 

有 关 这 种 目 助 法 的 几 种 变形 是 可 行 的 。 仿 从 不 是 利用 光滑 不 足 , 而 是 可 豆 接 
通过 估计 9. 5. 2 节 曾 给 出 的 偏 倚 而 得 以 剔除 。 同 理 ,9. 5. 2 节 给 出 的 方差 项 不 是 
利用 Sa) ,而 是 直接 剔除 。 

亚 特 丘 (Yatchew，2003) 曾 经 给 出 关于 非 参 数 回 归 与 半 参 数 回 妇 中 实施 目 助 
法 的 详细 内 雁 。 


11.6.6 非 光 洲 估计 量 


由 11. 4. 2 节 知 ,自助 法 假定 估计 景 与 统计 量具 有 光滑 性 。 除 此 以 外 ,自助 法 
可 能 没有 提供 渐 近 精炼 ,而 且 甚 至 是 无 效 的 。 

举例 来 说 ,我 们 考察 LAD 估计 量 及 其 对 二 值 数据 的 推广 。LAD 估计 量 ( 参 见 
4. 6. 2 节 ) 具 有 目标 函数 2;| 关 一 xiG | ,该 目标 函数 具有 不 连续 的 一 阶 导数 。 自 助 
法 可 以 提供 有 将 的 渐 近 近似 , 却 不 能 提供 渐 近 精炼 。 对 二 值 结 果 来 说 ,LAD 估计 
量 可 以 推广 到 曼 斯 基 (Manski，1975) 的 最 大 得 分 估计 量 上 (参见 14. 7. 2 节 )。 就 
此 估计 量 而 言 ,日 助 法 其 至 是 不 一 致 的 。 

在 这 些 例 子 中 ,具有 渐 近 精炼 的 自助 法 可 通过 利用 估计 量 的 原始 目标 晒 数 的 
光滑 形式 来 获得 。 例 如 ,14. 7. 2 节 将 要 并 述 替 罗 维 菊 (Horowitz，1992) 的 光滑 最 


大 得 分 佑 计量 。 


11.6.7 肝 间 序列 


自助 法 依赖 于 从 iid 分 布 中 所 进行 的 再 抽样 。 因 此 ,时 间 序 列 数据 表现 出 明显 
的 因 相 依 性 而 引起 的 问题 。 

对 于 含有 ARMA 误差 结构 以 及 从 基本 的 白 噪声 误差 中 进行 再 抽样 的 线性 模型 ， 
目 助 法 很 容易 实施 。 举 一 个 例子 ,假定 yy 二 Bx 十 w ,其 中 ,uw 二 pu 十 ee 而 es 表示 
白 噪 声 。 然 后 ,已 知 估计 值 8 与 6, 我 们 就 能 递 推 地 计算 残 差 为 外 一 站 一 中- 一 
yt 一 Xp 一 P(yi-1 一 Xi-1B)。 一 旦 对 这 些 残 差 进行 自助 法 得 出 台 , 1 二 1,…, 丁 ,然后 ， 
递 推 计算 虱 二 pi 六 十 名 ,从 而 yi 二 Br 十 忆 。 于 是 ,y* 对 进行 回归 ,具有 AR(1) 
误差 。 一 个 早期 例子 是 由 弗 里 德 曼 (Freedman，1984) 提 出 的 ,他 对 通过 2SLS 所 
估计 的 动态 线性 联 立 方程 回归 模型 进行 自助 法 。 已 知 线性 性 , 联 立 性 会 引发 一 点 
问题 。 模 型 的 动态 特性 可 借助 于 递 推 地 构造 天王 Fi x 下 ) 而 得 以 处 理 , 其 中 ， 
ww 表示 通过 从 2SLS 结构 方程 残 差 中 进行 再 抽样 而 得 到 ,并 且 项 王 y 。 然 后 ,对 每 
个 自助 法 样本 实施 2SLS。 

这 种 方法 假定 基本 误差 是 iid 的 。 对 于 不 含 ARMA 设 定 的 一 般 相 关 数 据 来 
说 ,例如 , 非 平稳 数据 ,可 使 用 11. 5. 2 节 曾 阐述 的 移动 分 块 自助 法 ， 

为 了 检验 单位 根 或 协 整 ,由 于 检验 统计 量 的 特性 在 单位 根 处 会 不 连续 地 变化 ， 
所 以 应 用 目 助 法 时 需要 特别 小 心间 层 。 例 如 ,参见 李 和 马达 拉 (Li and Maddala， 
1997)。 尽 管 在 这 种 情况 下 实施 有 效 自助 法 是 可 能 的 ,但 迄今 为 止 ,这 些 自助 法 没 
有 提供 渐 近 精炼 。 


11.7 应 用 研究 


应 用 人 研究 者 在 从 助 于 其 他 一 些 方 法 很 难 进行 推断 的 情况 下 ,不 含 渐 近 精炼 的 
月 助 法 就 是 一 种 相当 有 用 的 工具 。 这 需要 随 着 利用 软件 包 和 实践 者 工具 箱 而 变 。 
迄今 为 止 ,自助 法 的 一 种 最 普遍 的 应 用 是 ,对 需要 执行 沃 尔 德 假设 检验 的 标准 误差 
进行 计算 。 一 些 例子 包括 异 方差 性 稳健 和 面板 稳健 的 推断 、 关 于 两 步 估 计量 的 推 
汤 , 以 及 对 售 计 量变 换 的 推断 。 其 他 一 些 潜在 应 用 包括 ,对 m 检验 统计 量 的 计算 ， 
比如 诊 斯 曼 检 验 。 

自助 法 能 额外 地 提供 渐 近 精炼 。 许 多 蒙特 卡 罗 研 究 表 明 , 在 有 限 样本 中 相当 
标准 的 程序 执行 天 佳 。 和 存在 着 潜在 的 目 助 法 精 炬 的 应 用 ,但 目前 还 未 实现 。 在 一 
些 情况 下 ,这 能 改进 现 有 的 推断 ,比如 在 含有 异 方 差 的 可 加 误差 的 模型 中 使 用 原始 
自助 法 。 在 另外 一 些 情 况 下 , 它 将 激励 对 目前 未 充分 利用 方法 的 更 多 使 用 。 特 别 
地 ,具有 良好 小 样本 性 质 的 设 定 检验 能 借助 于 对 容易 计算 的 辅助 回归 进行 自助 法 
而 得 以 实施 。 

自助 法 的 应 用 存在 两 个 障碍 。 首 先 , 自助 法 不 总 是 深入 统计 软件 包 。 这 将 会 
随 着 时 间 而 变化 ,而 且 倘 者 软件 包括 循环 且 有 能 力 保 人 存 回归 输出 ,通过 上 自助 法 建立 
代码 就 不 再 困难 。 其 次 ,存在 一 些 奥 妙 之 处 。 渐 近 精 炼 需要 使 用 渐 近 中 枢 统 计量 ， 


微观 经 济 计量 学 
而 且 最 简单 的 自助 法 假定 iid 数据 ,以 及 估计 量 与 统计 量 的 光滑 性 。 这 会 涵盖 一 大 
类 应 用 ,但 不 包括 所 有 应 用 。 


11.8 文献 注释 


目 助 法 是 埃 弗 龙 (Efron，1979) 针 对 iid 数据 提出 的 。 辛 格 CSingh，1981) 、 比 
殉 尔 和 弗 里 德 曼 (Bickel and Freedman，1981) 都 兽 提 出 早期 的 理论 。 一 个 好 的 人 
门 统计 学 研究 是 由 埃 弗 龙 和 蒂 布 沙 兰 尼 (Efron and Tibsharani，1993) 给 出 的 ,而 
更 高 等 癸 完 则 由 堆 尔 (Hall，1992) 给 出 。 对 回归 推广 的 情况 很 早 就 考虑 过 ; 例如， 
参见 弗 里 德 曼 (Freedman，1984) 。 最 近 十 年 来 ,经 济 计量 学 家 进行 大 量 研 究 工 作 。 
霍 罗 维 葡 (Horowitz，2001) 的 综述 是 非常 综合 性 的 , 而 布朗 斯 通 和 卡 齐 米 (Broun- 
stone and Kazimi,1998) 综 述 则 是 一 个 良好 的 补充 ,他 们 考察 了 许多 经 济 计量 学 应 
用 ,以 及 麦 金 农 (MacKinnon，2002) 所 摧 写 的 论文 。 


习 题 


11-1 考察 模型 y 一 x 十 &r 十 e, 其 中 ,8 以 及 并 都 表示 纯 量 , 且 e 一 人 LO，o2]。 
生成 满足 a 二 2,8 二 1 以 及 5 二 1 的 容量 N= 二 20 的 样本 ,是 假定 x~N[L2, 2] 。 我 
们 想 要 在 水 平 0. 05 上 利用 :统计 量 : 二 (8 一 1)/se[8] 检验 Ho: 8 二 1 与 H,: 8 头 
1。 使 用 B= 二 499 次 自助 法 复制 。 

(a) 给 定 斜 率 估计 值 8, 通 过 OLS 估计 该 模型 。 

(b) 运用 成 对 自助 法 计算 标准 误差 ,并 将 之 与 最 初 样本 估计 值 进 行 比较 。 使 
用 自助 法 标准 误差 检验 肝 ,。 

(c) 运用 含有 渐 近 精炼 的 成 对 自助 法 检验 日 ,。 

(d) 运用 残 差 自 助 法 计算 标准 误差 ,并 将 之 与 最 初 样本 估计 值 进行 比较 。 使 
用 目 助 法 标准 误差 检验 Ho。 

(e) 使 用 含有 渐 近 精炼 的 残 差 自助 法 检验 HH,。 

11-2 依照 下 述 dgp 生成 容量 为 20 的 样本 。 借 助 于 zi 一 X (4) 一 4 与 x2~ 
3.5 十 UY [1， 2 来 生成 两 个 回归 元 ;误差 是 出 自 以 概 率 0. 3 满足 正 态 分 布 & 一 
NL0, 25] 且 以 概率 0.7 满足 wx 一 人 W Lo, 5 的 混合 分 布 ; 而 因 变 量 > 一 1. 3zxi 十 
0.7.zz 十 0. 5z。 

(a) 通过 OLS 估计 模型 。 

(b) 假定 我 们 对 数据 估计 yx=& 十 汉 感 兴趣 。 利 用 最 小 二 乘法 来 对 这 个 量 进 
行 估计。 使 用 6 方法 获得 该 函数 的 近似 标准 误差 。 

(c) 随后 ,利用 成 对 自助 法 对 > 的 标准 误差 进行 估计 。 把 这 个 值 与 来 源 于 (b) 
的 se[7Y] 加 以 比较 ,并 解释 其 差异 。 对 于 自助 法 来 说 ,使 用 B 二 25 且 B 二 200， 

(d) 现在 ,利用 如 一 999 的 成 对 自助 法 在 0. 05 水 平 上 检验 Ho,: y 一 1.0。 实 施 
含有 渐 近 精炼 的 自助 法 与 没有 涤 近 精炼 的 自助 法 。 

11-3 对 健康 消费 支出 Cy) 的 和 月 然 对 数 与 总 消费 文 出 (z) 的 目 然 对 数 , 使 用 源 


HH 自助 法 


于 4. 6.4 节 的 200 个 观测 值 。 求 模型 y 二 a 十 Br 十 w 的 OLS 估计 。 使 用 B= 二 999 的 
成 对 自助 法 。 

(a) 求 8 的 标准 误差 的 自助 法 估计 。 

(b) 利用 这 个 标准 误差 估计 值 来 检验 Ho: 8 二 1 与 HH: 8 六 1。 

(c) 在 wu 是 同方 差 的 假设 下 ,实施 含有 精炼 的 鼠 : 8 一 1 与 H.:; 8 尖 1 的 自助 法 
检验 。 

(d) 如 果 z 是 异 方差 的 ,你 在 (c) 中 所 用 的 方法 会 怎样 呢 ? 检验 还 是 渐 近 有 效 
的 吗 ? 检验 提供 渐 近 精炼 时 会 是 这 样 吗 ? 

(e) 运用 自助 法 求 8 的 偏 倚 修正 估计 值 。 


pa 


基于 模拟 的 方法 
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12.1 5 引 论 


前 几 章 曾经 阐述 , 非 线 性 方法 并 不 要 求 估 计量 有 闭 形式 解 。 不 过 , 非 线 性 方法 
却 紧密 地 依赖 于 解析 人 处理 性。 尤其 是 ,假定 估计 量 的 目标 肾 数 具有 团 形式 表达 式 ， 
同时 估计 量 的 渐 近 分 布 建 立 在 估计 方程 的 线性 化 基础 上 。 

在 本 章 ,我 们 将 阐述 基于 模拟 的 估计 方法 。 第 5 章 对 ML 估计 的 研究 已 假定 ， 
密度 F(y|x,9) 具 有 闭 形 式 表 达 式 。 如 果 不 存 在 闭 形式 解 ,而 当 我 们 使 用 f(y|x,90) 
的 一 个 良好 近似 六 yx,9) 去 建立 似 然 函 数 时 , 极 大 似 然 估计 或 许 还 是 可 行 的 。 缺 
乏 密 闭 形式 表达 式 的 普遍 原因 是 , f(y|x,90) 定 义 中 存在 不 易 处 理 的 期 望 。 例 如 ,在 
随机 系数 模型 中 ,对 随机 参数 进行 积分 并 将 之 去 掉 很 困难 。 倘 大 期 望 用 蒙特 卡 罗 
近似 来 代替 , 则 得 到 的 估计 量 被 称 为 基于 模拟 的 估计 量 。 类 似 的 模拟 方法 能 应 用 
于 建立 在 矩 基础 上 的 和 抢 估 计 方 法 ,诸如 条 件 均 值 , 原 因 在 于 没有 闭 形 式 解 。 在 矩 方 
法 情况 下 ,用 模拟 方法 获得 一 致 参数 估计 是 可 行 的 ,此 时 , 比 极 大 似 然 估计 情况 下 
为 一 致 性 而 必需 的 模拟 要 更 少 一 些 。 

这 些 估计 方法 都 是 密集 计算 的 ,因为 它们 大 量 运 用 蒙特 卡 罗 抽 样 方法 。 运 用 
蒙特 卡 罗 方 法 ,将 引起 近似 的 准确 性 .计算 有 效 性 以 及 使 用 这 类 近似 估计 量 的 抽样 
性 质问 题 。 

12. 2 节 给 出 基于 模拟 估计 的 动机 例子 。12. 3 节 涵 盖 计 算 积 分 的 基础 ,其 中 会 
提 及 连续 随机 变量 是 一 个 积分 的 问题 。12. 4 节 与 12. 5 节 阐 述 极 大 模拟 似 然 估计 
与 模拟 的 基于 和 矩 估计 ;12. 6 节 研 究 间接 推断 。 这 些 估 计量 需要 模拟 项 11(simula- 
tors) ,详细 内 容 则 在 12. 7 节 阐 明 ,而 伪 随 机 数 在 12. 8 节 加 以 详细 阐述 。 


12.2 例 于 
我 们 考察 下 述 例子 ,给 定 回归 元 x 与 参数 6 时 ,y 的 条 件 密度 是 一 个 积分 : 


[1] 又 称 为 模拟 式 或 模拟 装置 。 一 一 主 痢 注 


/2 基于 模拟 的 方法 


f(yv|x,0) = ay X,0,uU)xru)du (12.1) 


其 中 ,h(*) 与 g&(*) 的 函数 形式 均 已 知 , 而 玫 表 示 随 机 变量 ,不 一 定 为 误差 项 , 它 需 
要 通过 积分 而 去 掉 。 如 果 此 积分 不 存在 解析 解 ,从 而 似 然 函数 没有 闭 形式 表达 式 ， 
那么 这 就 成 为 使 用 基于 模拟 的 估计 方法 的 根据 。 


12. 2. 1 随机 参数 模型 


随机 参数 模型 (random parameter model) 或 随机 系数 模型 (random coefficients 
model) 允许 回归 系数 依据 某 个 分 布 随 不 同 个 体 而 变化 。 一 种 完全 参数 随机 参数 模 
型 , 设 定 以 回归 元 % 与 给 定 参数 7; 为 条 件 的 因 变 量 y; 具有 条 件 密度 f(y; |x 7;)， 
其 中 ,7; 是 iid 的 ,其 密度 为 g (~;10)。 推 断 建 立 在 以 x; 与 给 定 8 为 条 件 的 y 的 
密度 基础 上 , 即 : 


f (ylx,0) = |f(y|x,7) gy10)dy (12. 2) 


除了 在 一 些 特殊 情况 下 ,此 积分 将 没有 闭 形式 解 。 一 种 普遍 设 定 是 ,假定 正 态 分 布 
随机 参数 ,满足 y; 一 Nig, 三 |。 于 是 ,x ;二 上 十 五 i ,其 中 ,ui 一 和 ML0,1, 并 能 用 
式 (12. 1) 的 形式 重新 写 出 式 (12.2), 其 中 ,8 表 不 包含 4 与 玉 的 独特 分 量 的 问 景 ， 
而 g(Cu) 表 示 ML0,I 的 密度 。 | 

随机 参数 模型 的 一 个 简单 例子 是 被 忽略 异 质 性 (neglected heterogeneity) 。 于 
是 ,经 常 恰好 有 一 个 参数 即 通 常 的 截 距 被 假定 成 随机 的 ,因而 积分 是 一 维 的 ,这 很 
容易 在 数值 上 加 以 近似 。 不 过 ,更 一 般 地 讲 , 积 分 维 数 可 能 是 高 维 的 。 

随机 参数 与 不 可 观测 蜡 质 性 的 一 些 重要 例子 包括 :(1) 多 项 式 logit 模型 中 的 
服从 正 态 分 布 随机 参数 (随机 参数 logit 模型 ,参见 第 15 章 );(2) 威 布尔 持续 期 限 
模型 中 的 服从 伽 玛 分 布 不 可 观测 异 质 性 (参见 第 19 章 );(3) 泊 松 计 数 模型 中 的 服 
从 伽 玛 分 布 不 可 观测 异 质 性 (人 参见 第 20 章 ); 以 及 (4) 面 板 数据 模型 中 的 特定 个 体 
随机 效应 (参见 第 21 章 )。 在 对 异 质 性 分 布 进行 积分 之 后 ,对 于 例子 3 与 例子 4 所 
得 到 的 边缘 密度 的 闭 形式 解 在 正 态 性 下 ,对 线性 模型 来 说 都 是 可 利用 的 。 可 是 ,对 
于 例子 1、 例子 2 以 及 例子 4 的 许多 非 线性 应 用 来 说 ,没有 团 形式 解 可 利用 。 


12. 2.2 受 良 因 变 量 模 型 


受 限 因 变量 (imited dependent variable， 记 为 LDV) 是 指 , 因 变量 由 于 删 失 或 
截取 而 仅仅 在 其 一 部 分 取 值 范围 内 才 是 可 观测 的 。 于 是 ,可 观测 变量 的 密度 会 涉 
及 不 可 能 具有 闭 形式 表达 式 的 积分 。 

受 限 因 变 量 的 一 类 重要 例子 是 离散 选取 模型 (disecrete choice models) ,第 14 章 
与 第 15 章 将 详 述 此 类 模型 。 我 们 这 里 介绍 离散 选择 模型 ,它们 是 基于 模型 估计 的 
经 济 计量 学 文献 所 关注 的 内 容 。 

举 一 个 例子 ,考察 消费 者 在 三 种 互 不 相交 的 商品 之 间 选 择 其 一 ,诸如 三 种 各 不 
相同 的 耐用 商品 ,消费 者 从 中 选择 了 唯一 商品 。 假 定 消费 者 对 效用 求 最 大 化 ,并 设 可 
供 选取 的 商品 1、 商 品 2、 商 品 3 的 效用 分 别 用 UU,、Us、0U3 给 出 。 效 用 Ul、Ui 以 及 
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Us 是 不 可 观测 的 。 然 而 ,我 们 仅仅 可 以 观察 到 依 束 于 被 选取 的 商品 离散 结果 变量 
y 二 1.2 或 者 3。 
假定 可 选 商品 1 被 选 上 ,因为 它 具 有 最 高 的 效用 。 于 是 ,其 概率 质量 函数 是 
二 PrLy 二 1j, 其 中 : 


pi=Pr[Ui—U; 宇 0, Ui —U; 守 0] 
一 Pr (x —x%) Ge —e 0, (x —xXs3) 3 十 sl 一 ss 过 0 


如 果 我 们 做 出 共同 假设 (参见 15. 5.1 节 ), 邑 U; 二 6B 十 8;,j 二 1,2,3， 其 中 , 问 归 
元 x 测量 了 这 三 种 商品 的 不 同属 性 ,而 误差 6 可 在 (一 cp，ce) 上 上 变化。 一旦 定义 
ul =—=Ui—U, Hw =U—U; ,有 : 


pi 一 | | go ,U2 du 1 du? (12. 3) 
其 中 ,g(w ,ww) ,或 更 正式 地 ,glw ,wuz |Xx,0) 表 不 (uw "ze) 的 一 二 变量 密度 ,或 者 等 价 地 : 
p=| | lw 0,w S08,u)dudus (12. 4) 


其 中 ,1[A | 表示 指示 变量 吗 数 , 当 事 件 A 发 生 ,1LAj 就 等 于 1 ,否则 等 于 0。 
只 分 式 (12. 4) 具有 式 (12. 1) 的 形式 。 由 于 积分 仅 对 (wz ) 的 一 部 分 范围 进 
行 [参见 式 (12. 3)], 所 以 不 可 能 存在 闭 形 式 解 ,即使 我 们 知道 ,如 果 积 分 在 (xm yaz ) 


整个 范围 进行 ,那么 | gCu,w)duidus = 1 


特别 地 , 当 误 差 e 服从 正 态 分 布 , 如 同 多 项 式 probit 模型 (multinominal probit 
model) , 积分 式 (12. 3) 是 在 二 变量 正 态 分 布 的 正 象 限 进行 。p 不 存在 团 形式 解 , 因 
而 对 于 密度 f(y|x,90) 来 说 ,不 存在 容易 处 理 的 表达 式 。 在 实际 应 用 中 ,积分 维 数 
可 能 非常 高 ,用 数值 形式 加 以 近似 很 难 ,因为 对 于 在 mx 个 互 斥 可 供 选 择 的 情况 之 
间 选 取 来 说 ,积分 具有 m 一 1 维 数 。 一 直到 发 展 出 基于 模拟 的 估计 量 , 研 究 者 才 使 
用 含有 m 志 4 的 模型 ,或 者 选择 其 他 的 误差 分 布 , 比 如 导致 更 强 约 束 的 多 项 式 logit 
模型 。 


12.2.3 ML 估计 


为 了 简单 起 见 ,考察 MLE。 假 定 不 同 的 观测 值 具有 独立 性 ,同时 y 具有 条 件 
密度 f(y|x,0)。 

前 面 两 个 例子 中 的 新 困难 是 ,ML 估计 行 不 通 ， 因为 f(y|x,0) 不 存在 闭 形 式 表 
达 式 , 是 由 不 能 加 以 简化 的 积分 来 定义 的 。 相 反 , 我 们 用 数值 形式 近似 f(y|x,9) 
来 代替 此 积分 ,然后 对 : 


N 
In Ln(0) = >ln fy,|x;,0) 
1 一 ] 


求 关于 9 的 极 大 值 。 此 估计 量 将 是 一 致 的 ,并 且 如 果 f(y|x,0) 是 f(y|x,0) 的 一 个 
良好 近似 , 它 就 具有 与 MLE 相同 的 渐 近 分 布 。 
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所 得 到 的 一 阶 条 件 通常 是 非 线性 的 ,并 通过 和 迭代 法 来 求解 。 因 为 f(y; |x; ,90) 
随 i 与 9 而 变化 , 故 利用 数值 导数 进行 梯度 计算 将 需要 至 少 计算 Ngr 次 ,其 中 ,NN 
表示 样本 量 ,9 表示 8 的 维 数 ,而 r 表示 迭代 次 数 。 例 如 ,对 于 具有 1 000 个 观测 
值 、10 个 参数 以 及 50 次 欠 代 来 说 ,至 少 计算 500 000 次 函数 。 

非 线 性 模型 所 需要 的 这 种 标准 计算 ,现在 要 用 为 计算 对 积分 f(y1x,0) 适 家 的 
近似 而 需 的 计算 次 数 去 乘 。 很 明显 ,人 们 和 希望 获得 计算 次 数 相对 少 一 些 的 方法 。 


12. 2.4。 贝 叶 斯 方 洪 


第 13 革 将 给 出 对 贝 叶 斯 方法 的 单独 研究 。 这 些 方 法 包括 类 似 于 式 (12.2) 的 
积分 计算 ,但 要 进一步 加 以 计算 ,从 而 得 到 参数 的 (后 验 ) 分 布 ,而 不 是 请 如 极 大 似 
然 估 计 的 点 估计 。 


12. 3 ”积分 计算 基础 


我 们 考察 积分 (integral) : 
[一 | fC)dr (12. 5) 


其 中 ,f(，) 在 [a, bj 上 是 连续 的 ,而 且 积 分 的 界限 不 需要 是 有 限 的 ,因此 ,4 二 一 0， 
并 且 或 者 6 一 oo 是 可 能 的 。 在 本 节 ,x 最 初 表 示 纯 量 , 并 表示 可 用 积分 去 挥 的 变 
量 。 在 回归 应 用 中 ,积分 经 党 是 针对 回 量 的 ,该 向 量 记 为 u, 进 而 x 表示 回归 元 | 参 
见 式 (12. 1)]。 假 定 积分 存在 ,即使 积分 发 散 , 需 要 一 种 重要 的 限定 条 件 得 到 了 的 
有 限 估计 值 , 该 限定 条 件 用 于 核对 其 近似 方法 。 

自 先 ,我 们 阐述 对 于 低 维 数 积分 有 用 的 数值 积分 或 求 积 分 。 这 通过 守 特 卡 罗 
积分 来 完成 ,对 于 局 维 数 积分 来 说 会 更 好 地 起 作用 ,这 也 是 本 章 关 注 的 内 容 。 

本 节 内 容 与 实施 基于 模拟 的 信 计 有 关 ; 因此 ,一 些 读者 可 能 愿意 在 讨论 12. 4 
节 至 12.6 之 后 阅读 它 。 


12. 3. 和 确 和 外公 数 信 积 分 


只 分 能 被 解释 成 为 对 面积 或 者 体积 的 测量 。 确 定性 数值 积分 或 求 积分 (deter- 
ministic numerical integration or quadrature) 是 用 一 系列 较 小 体积 的 切片 加 起 来 代 
奉 体 积 。 正 式 地 讲 , 这 会 涉及 对 被 积 图 数 在 几 个 点 上 进行 计算 ,同时 对 这 些 值 取 加 
权 和 。 确 定 前 级 用 于 表明 ,对 积分 近似 的 这 一 方法 不 需要 进行 模拟 。 

辛普森 法 则 

由 积分 定义 : 


NN 
1 = lim > f(x;)Ax; (12. 6) 
Ar;-*0 5 —1 


其 中 9 的 范围 La， 0 被 分 割 成 (2 十 1) 个 点 ,zeo<zi< < 并 且 n 一 CO。 一 些 标 
准 近 似 方 法 是 ,对 有 限 n 提供 更 准确 的 式 (12. 6) 的 精炼 式 。 我 们 对 等 距 点 阐述 其 
结果 ,尽管 这 些 结果 能 被 推广 到 对 那些 不 等 距 点 的 计算 上 。 为 了 简单 起 见 , 假 定 
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f(z) 在 极限 点 a 与 5 处 可 以 计算 。 
中 点 法 则 Cmidpoint rule) 是 指 在 区 间 [xj-i ,xz | 的 中 点 茎 ， 一 二 (zi-1 十 xi 进行 
计算 ,然后 对 底 为 (6 一 a)/n 而 高 为 f(z;) 的 个 矩形 进行 求 和 。 因 而 ,TT 通 过 : 


iv = fz) (12. 7) 


来 通 近 。 梯 形 法 则 (trapezoidal rule) 是 对 f(x; 1;) 与 f(x;) 之 间 的 连接 直线 加 以 改 
进 , 然 后 对 确 为 (5 一 Qa)/n 而 平均 高 为 (f(xj-1) 十 f(x;))/2 的 7 个 梯形 进行 求 和 ， 
因而 ,TT 通过 : 








i, = > 一 ete (12 8) 
来 逼近 。 辛 普 森 法 则 (Simpson's rule) 在 三 个 相继 连接 点 f(x;-1)、fCzx;) 以 及 
f(zit1) 之 加 使 用 二 次 曲线 ,而 梯形 法 则 在 相继 连接 点 之 间 使 用 直线 。 从 而 得 到 下 
述 近 似 : 


1s 一 > 0 dw, fx,) (12.9) 





其 中 ,表示 偶数 , 除 wo 王 w, 二 1 之 外 , 当 j 为 奇数 时 ,ww 二 4, 而 当 j 为 偶数 时 ， 
Ui 一 L。 

这 些 近 似 误 差 界限 会 作为 积分 范围 5 一 a 的 寡 国 数 而 增 大 ,并 作为 积分 次 数 的 
医 昂 数 而 减 小 。 对 于 弟 普 森 法 则 来 说 ,| 于 一 刀 委 MG 一 a) /71807 ,其 中 ,Ms 表示 
Xz 在 [a,bj 上 四 阶 导数 的 最 大 绝对 信 。 对 于 梯形 法 则 来 说 ,Ii 一 T| 夺 Mj (5b 一 a)*/ 
12n ,其 中 ,Ma 表示 工 在 La ,oO 上 二 阶 导数 的 最 大 绝对 值 。 很 明显 ,积分 次 数 需 要 
随 春 x 范围 而 增 大 , 而且 人 们 应 检验 积分 次 数 的 敏感 性 。 

辛普森 法 则 及 其 有 关 的 法 则 ,对 于 有 限 区 间 上 的 定 积分 起 着 良好 的 作用 。 可 
是 ,很 明显 ,对 于 不 定 积分 来 说 却 产 生 了 问题 ,因为 出 现 要 计算 尾部 的 问题 ,例如 ， 
假定 La,bj 二 [0,co)。 于 是 ,在 选取 x, 时 存在 一 种 权衡 , 估 为 上 界 zx 应 是 很 大 的 ， 
从 而 计算 点 之 闻 的 距离 也 很 大。 至 少 人 们 应 去 检验 对 z, 增 大 的 敏感 性 。 

高 斯 求 积 法 

高 斯 求 积 法 (Gaussian quadrature) 是 高 斯 在 1814 年 提出 的 , 它 是 一 种 可 供 选 
择 的 以 数值 积分 命名 的 积分 。 它 提供 了 对 计算 点 zi 不 再 等 距 的 一 种 良好 的 选取 
法 则 ,同时 尤其 有 助 于 计算 不 定 积分 。 

首先 ,把 式 (12. 5) 重 新 写成 : 


d 
1 -=- | wnadr (12. 10) 


其 中 ,wz) 通 常 依赖 于 的 范围 ,并 是 下 述 三 种 图 数 之 一 :高 斯 一 埃 尔 米 特 (Gauss - 
Hermite) 积 分 , 设 w(x) 一 ec 一 ,并 用 于 | cd | 二 (一 co,co); 高 斯 一 拉 症 尔 (Gauss - 
Laguerre) 积 分 , 设 w(x) 二 e ,并 用 于 Lc, dj 二 (0, oo0); 高 斯 一 甚 让 德 (Gauss - 


2 基于 模拟 的 方法 


有 


Legendre) 积 分 , 设 记 (xz) 王 1, 并 用 于 [cg j=[ 一 1,1]。 
在 最 简单 的 情况 下 , 式 (12. 10) 通 过 定义 r(xz) 二 fx)/w(zx), 从 式 (12.5) 中 获 
得 。 更 一 般 地 讲 , 可 能 要 求 z 的 变换 ,例如 式 (12. 5) 的 范围 L2,ce) 变 成 式 (12. 10) 
的 [0o,ee) 。 一 些 方法 ,允许 使 用 者 直接 提供 f(x) 与 积分 的 范围 ,并 自动 处 理 任何 
高 斯 求 积 法 是 通过 加 权 和 : 


了. 一 ,wir (zj) (12.11) 
j =] 


通 近 积分 式 (12. 10) ,其 中 ,m 由 研究 者 选取 ;m 个 计算 点 zi 与 加 权 zw 在 诸如 阿布 
拉 英 维 深 和 斯 特 古 (Abramowitz and Stegun，1971) 的 书 中 或 由 普 雷 斯 等 人 (Press 
et al. ，1993) 提 供 的 计算 机 程序 中 都 可 找到 ， 

支撑 近似 的 理论 是 建立 在 w(x) 正 交 多 项 式 (orthogonal polynomial) 的 基础 
上 , 记 为 pj; (7),j 二 0,…,m, 它 满足 : 


d 
[win pnpilr dr 一 0， 了 天 有 jrk 0,m 


另外 , 当 | w(z) 太 (zydr = 1 时 ,就 称 该 多 项 式 是 正 交 的 ,如 果 r(z) 是 阶 数 为 2m 一 1 


或 小 于 2m 一 1 的 多 项 式 , 那 么 近似 式 (12. 11) 是 准确 的 ,因此 若 式 (12. 10) 的 r(x) 
是 由 阶 数 2m 一 1 的 多 项 式 来 很 好 地 副 近 , 则 近似 就 行 得 遂 。 对 计算 点 m 个 数 的 一 种 
良好 选取 需要 通过 试验 来 定 , 但 许多 应 用 只 使 用 20 或 30。 

举 一 个 例子 ,考察 高 期 一 埃 尔 米 特 求 积 法 (Gauss - Hermite quadrature) , 巾 于 
积分 经 党 是 在 (一 co，ce) 上 进行 , 故 该 方法 在 经 济 计 量 学 里 普遍 使 用 。 对 于 
w(x)=e 来 说 ,正光 多 项 式 p; (xz) 是 埃 尔 米 特 多 项 式 是; (xz), 其 中 , 正 交 形 式 是 
利用 递归 式 如 (7x) 二 V2/ 十 1D) xH; (x) 一 Vi/C 十 1) H;-1(x) 生成 的 ,7 一 
1,…,m，H-_ ,二 0, 并 且 Ho 一 x 1。 所 得 出 的 m 个 横 坐 标 x; 作为 日, (x) 一 0 的 
m 个 根 , 同 时 对 于 正 交 埃 尔 米 特 多 项 式 来 说 , 权 数 w; 二 1/[ 晶 ;1(x;)*]。 正 如 已 
注意 到 的 ,给 定 mx 与 w; 在 表格 或 计算 机 编码 中 都 是 可 以 利用 的 。 

对 于 定 积 分 来 说 ,高 斯 一 勒 让 德 求 积 法 通常 比 笠 普 森 法 则 实施 得 更 好 。 不 过 ， 
高 斯 求 积 法 的 实际 优点 是 针对 不 定 积分 的 。 注 意 到 , 寿 积 分 在 (一 oo,co) 上 计算 ， 
通过 变量 变换 变 成 (0,ecoeo) 上 的 积分 是 可 行 的 ,然后 用 高 斯 一 拉 次 尔 求 积 法 而 不 是 
高 斯 一 埃 尔 米 特 求 积 法 。 

存在 另外 一 些 计 算 积 分 的 确定 性 方法 ,包括 拉 普 拉 斯 近似 法 L 蒂 尔 尼 、 卡 斯 和 
卡 登 那 (Tierney，Kass，and Kadane，1989) | 。 


12. 3. 2 通过 直接 蒙特 下 罗 抽 样 积分 
蒙特 卡 罗 积 分 为 确定 性 数值 积分 提供 了 一 种 可 供 选 择 的 方法 。 通 常 ,对 1 
| f(z)dzr 的 蒙特 卡 罗 积 分 估计 是 ， 
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S 
iv = >, f(x) (12. 12) 
+=] 


其 中 ,zx ,…,zx’ 表示 S 从 范围 La, 习 中 均匀 采样 。 与 中 点 法 则 相 比 ,我 们 在 S 个 随 
机 选取 的 点 上 而 不 是 ”个 确定 的 中 点 上 计算 f (x)。 

我 们 关注 一 些 回归 的 应 用 ,诸如 12. 2 节 给 出 的 那些 例子 。 于 是 ,由 于 想 要 获 
得 期 望 值 ELACz)], 比 如 说 ,期 望 是 关于 随机 变量 zx 的 ,不 妨 设 随机 变量 xz 具有 pdf 
g(z), 所 以 就 产生 了 积分 。 在 连续 情况 下 ,我 们 想 要 计算 ， 


p 
Elh(x)| = | h(xr)pg(r) dr (12.13) 


本 前 自始至终 地 假定 ,ELh(z) <ce ,也 就 是 积分 收 伍 。 然 后 ,ELACz)j 可 通过 直接 
蒙特 卡 罗 积 分 法 (direct Monte Cario integral estimate) 得 出 估计 : 


5 
Jovc = E[h(x)] = SS! Yh(r’) (12. 14) 
5 一 ] 


其 中 ,( 必 ，s 一 1,…，S) 表 示 来 自 密度 g(z) 的 S 个 伪 随 机 数 的 蒙特 卡 罗 样 本 ,这 可 
利用 稍 后 12. 8 市 将 给 出 的 方法 来 得 到 。 估 计 式 (12. 14) 利 用 了 来 自 密度 g(x) 的 x 
采样 对 h(x) 进行 估计 ,而 估计 式 (12. 12) 则 利用 如 同 式 (12. 12) 中 z 的 均匀 抽取 采 
样 对 产 (z)g(z) 进 行 估计 。 式 (12. 14) 的 优点 是 , 它 能 应 用 于 不 定 积分 ,而 且 当 4a 或 
b 无 界 时 ,要 获得 式 (12. 12) 的 均匀 采样 就 出 现 问 题 了 。 

估计 值 EL[h(z)] 是 冰 数 f(，) 在 每 一 个 随机 采样 xz'* 上 计算 值 的 平均 。 等 价 地 ， 
ELh(x) | 就 是 随机 变量 h(x,) 的 平均 ,而 且 当 S 一 oo 时 ,如 果 应 用 大 数 定律 和 中 心 
极限 定理 , 就 可 得 出 它 的 性 质 。 此 处 ,x’ 是 iid 的 , 因而 h(xz') 是 iid 的 ,由 于 
Elh(z) 存在 是 已 经 假定 的 ,所 以 我 们 可 应 用 柯 尔 莫 哥 洛 夫 LLN( 人 参见 附录 A, 定 
理 A. 8)。 由 此 可 得 : 


当 S—>oo 时 ,，E[h(Cx)] > El ACzx) | 


同 理 , 由 于 h(xzr’) 是 iid 的 ,一 旦 假定 YLh(x)j 存 在 , 则 ELh(x)] 的 方差 等 于 
S “ VLAGCz)j。 当 SS VLAGz) |] 很 小 ,这 种 近似 对 于 适度 的 S 大 小 来 说 可 以 是 良 
好 的 。 


12. 3. 3 积分 计算 例子 
假定 z 一 WELo,，1] ,我 们 想 要 计算 均值 : 
E[z] 一 〈《V 玩 )| zexp(— x:/2)dz 
以 及 和 矩 ELexp( 一 exp(Cz))] ,而 该 值 被 定义 为 下 述 积分 : 
E[exp( 一 exp(z))] = (V3x) "| ”exp( 一 exp(z)) exp(— xz:/2))dz 


Efz] 的 解析 表达 式 存 在 ,而 且 得 到 E[x] 二 0。 与 之 相 比 , ELexp( 一 exp(x))] 
的 解析 表达 式 却 不 存在 。 在 寻找 数值 近似 之 前 ,首先 证 实 此 积分 确实 是 收 伍 的 。 


/2 基于 模拟 的 方法 


本 一 


由 于 exp(〈 一 expb(z)) 是 严格 正 的 , 且 随 着 最 大 值 1 而 单调 递减 ,由 此 可 得 ， 
|exp( 一 exp(Xx)) | 过 1, 因 此 ELexp( 一 exp(z))] 王 ELI] 一 1, 从 而 积分 收敛 。 

这 些 一 维 积分 很 容易 利用 确定 性 数值 近似 来 计算 。 例 如 ,考察 对 zo 王 一 5 与 
Xz 二 5 之 间 具 有 ”一 20 的 等 距 计算 值 的 中 点 法 则 。 于 是 ,有 : 


E[z] = (Vaz) >， sn7iexp(— 72}/2) 
] 


了 一 


20 
El exp( 一 exp(7x)) | = (v2x)! > 30exp(— exp(Zz;))exp(— z; /2) 
j=1 


其 中 ,五 一 一 5. 25 十 j/2。 正 如 人 们 所 料 , 当 小 数位 数 很 多 时 ,EE[exp( 一 exp(x))]= 
0. 381 756 56。 相 反 , 当 我 们 在 一 10 与 10 之 间 令 n= 二 200, 后 者 估计 值 变化 很 小 ,一 
直到 第 8 位 小 数 。 很 明显 ,此 处 的 确定 性 数值 方法 表现 良好 。 

这 些 积分 还 可 利用 蒙特 卡 罗 近 似 来 计算 ,并 满足 ; 


. ] < 心 
E| x | 一 一 DE 
S 5 一 ] 
5 
El exp( 一 exp(Cx)) | = 后 > exp(— exp(x’ ) ) 
< 一 ] 


其 中 ,zx’ 表示 从 AML0, 1 分 布 中 得 到 S 个 抽取 的 第 * 个 采样 ,而 实施 这 类 采样 方法 
已 在 附录 B 中 给 出 。 表 12.1 对 于 模拟 S 的 各 种 不 同 次 数 给 出 E[xj 与 
Elexp( 一 exp(x))] 的 估计 。 注意 到 , 当 S$S 一 co 时 ,此 估计 量 趋 于 稳定 ,有 日 分 别 趋 癌 
于 它们 的 各 上 自 真 实 值 0 与 0. 381 756 56 ,其 中 后 者 可 通过 确定 性 数值 近似 来 获得 。 
不 过 。 当 S 王 105 ,估计 值 下 上 [z] 还 在 第 4 个 小 数位 上 不 同 于 0。 这 里 , 由 于 
V[z'j] 一 1, VLELxj]] 二 ST1V[x] 二 1/S, 因 此 ,甚至 当 S 二 101,E[zx] 的 标准 差 是 相 
对 大 的 , 即 0. 001。 上 有 具有 较 小 方差 的 蒙特 卡 罗 近 似 的 一 种 可 供 选 择 方法 将 在 12. 7 
了 给 出 。 


表 12.1 蒙特 卡 罗 积 分 :关于 x 标准 正 态 的 例子 


s 一 模拟 次 数 E[x] E| exp(— exp(x)) | 
10 0. 145 0. 336 
25 一 0. 209 0. 435 
DO 0. 050 0. 309 
100 一 0. 120 0. 409 
500 一 0.U59 0. 398 
1 000 0. 005 0. 382 
10 000 —0. O07 0. 383 
100 000 一 0. 000 0. 382 
1 000 000 一 000 0. 381 


12.3.4 图 高 维 数 积 耸 


较 高 维 数 的 积分 ,可 利用 确定 性 积分 或 蒙特 卡 罗 积 分 法 来 进行 计算 , 当 维 数 增 
大 时 ,后 一 种 方法 更 受 人 们 言 欢 。 
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史 本 本 大 汪 


确定 性 积分 法 可 利用 多 元 高 斯 求 积分 做 得 更 好 ,或 者 如 果 积 分 极限 不 太 复 杂 
时 ,通过 把 m 维 积分 简化 成 mx 个 一 维 积分 来 计算 ,比如 说 ,利用 高 斯 求 积 法 。 不 
过 ,由 式 (12.6) 积 分 定义 知 , 很 明显 计算 次 数 将 以 m 寡 增 长 。 例 如 ,对 于 一 维 积分 
来 说 ,需要 计算 20 次 函数 ,而 五 维 积分 可 能 需要 5” 次 或 95 万 亿 次 计算 。 当 对 每 
一 个 观测 值 都 要 计算 ,然后 求 和 进行 估计 时 ,并 不 需要 这 样 高 的 精度 ,但 是 其 计算 
次 数 实际 上 随 积分 维 数 而 增加 。 

可 百 接 实施 较 高 维 数 的 蒙特 卡 罗 积 分 法 ,只 是 把 式 (12. 13) 与 式 (12. 14) 中 的 
工 定义 为 一 个 癌 量 ,并 从 多 元 密度 g(x) 中 采样 。 很 明显 ,不 存在 维 数 祸根 。 不 过 ， 
人 们 应 记 住 ,如 果 被 积 隧 数 具 有 强烈 的 峰值 ,那么 简单 蒙特 卡 罗 积 分 法 将 不 会 起 作 
用 ,而 且 一 种 可 能 情况 是 ,这 种 峰值 在 较 高 维 数 中 可 能 变 得 特别 显著 。 特 别 地 ,对 
于 12. 2. 2 节 的 离散 选择 例子 来 说 , 式 (12.4) 的 被 积 函 数 仅仅 在 (uv) 范围 的 一 小 
部 分 上 可 能 为 非 零 ,12.7 节 将 继续 探讨 其 含义 。 此 外 ,与 从 一 元 分 布 中 采样 相 比 ， 
从 多 元 分 布 中 采样 更 加 困难 。 


12.4 极 大 似 然 模拟 售 计 


现在 ,考察 当 密 度 没 有 解析 表达 式 可 利用 时 ,把 这 些 想 法 应 用 于 ML 估计 上 。 
一 个 重要 结果 是 ,模拟 能 产生 具有 与 MLE 相同 分 布 的 估计 量 , 倘 若 对 每 一 个 观测 
值 来 说 ,为 计算 密度 而 采样 的 模拟 次 数 趋 向 于 无 穷 大 。 


12. 4.1 模 扒 玫 


假定 观测 值 的 条 件 密度 f(y|x,0) 涉及 不 容易 处 理 的 积分 。 具 体 地 讲 ,假定 如 


Fw |x,,0) 一 Jay lx,0,0) gu ) du (12. 15) 


若 不 存在 闭 形 式 解 ,就 需要 对 它 进行 估计 。 
了 (yi |x;,0) 的 直接 模拟 器 [171(direct simulator) 是 一 种 明显 的 蒙特 卡 罗 积 分 法 
估计 : 


S 


fy:; |xi, us ,0) = hcy |x,0,u) (12,16) 


1 一 ] 


其 中 ; Ws 表示 S 个 采样 的 UL 器 量 ,SS 一 1] ,它们 是 从 g(UW) 中 独立 抽样 。 这 直接 
对 S 个 采样 求 h(y;|x;,0,W) 的 平均 数 。 由 12. 3. 2 节 知 , 当 采 样 次 数 S 一 co 时 , ff 

除 直接 模拟 器 以 外 ,可 使 用 其 他 一 些 模 拟 器 ,这 些 将 在 12. 7 节 加 以 详 述 。 例 
如 , 倘 兰 采样 还 具有 边缘 分 布 g(u) ,就 允许 采样 之 间 存 在 相关 ,这 些 将 会 产生 估计 
值 f; ,对 于 有 限 采 样 次 数 来 说 , 广 较 好 地 通 近 f;。 于 是 ,更 一 般 地 讲 , f(y; |x;,09) 
的 蒙特 卡 罗 估 计 是 : 


[1] 义 称 为 直接 模拟 式 。 一 一 - 译 者 注 


NB 基于 模拟 的 方法 


-一 
Le 


~ 
fly;|x;,0,u) (12. 17) 


一】 


其 中 ,uw 表示 SS 个 来 样 ,其 边 毕 密 度 为 g(),s 二 1],…,S, 但 对 于 不 同 的 » 来 说 ,不 


一 定 是 独立 的 。 为 了 运用 该 模拟 器 , 当 S->co 时 , 广 二 广 。 子 模拟 器 (subsimulator) 
了 (*) 被 称 为 是 无 偏 模 拟 器 (unbiased simulator) , 如果 它 满足 下 述 性 质 ， 


EL[Lf(y|lx,0,u) |= f(y|x,0) (12. 18) 


模拟 器 的 一 个 值得 拥有 的 性 质 是 , f; 在 9 上 是 可 微 的 ,因此 ,标准 迭代 梯度 法 
能 用 于 计算 8 的 估计 。 为 了 剔除 因 模 拟 引 发 的 “振动 >(chatter) ,并 确保 数值 收敛， 
用 于 构造 f; 的 基本 蒙特 卡 罗 抽 样 不 应 该 重复 抽样 ,因为 6 对 于 不 同 迭 代 会 变化 。 


12.4.2 MSL 估计 量 


_ _ 1 
fly;|x;, us ,0) a 


已 知 对 不 同 i 具有 独立 性 , 极 大 似 然 估 计量 gw 是 对 ln Ln(0) 王 BNIn f(y,| 
x; 0) 求 极 大 值 。 可 是 ,模拟 极 大 似 然 (maximum simulated likelihood，MSL ) 估计 
量 0 ma 是 对 建立 在 密度 模拟 估计 基础 上 的 对 数 似 然 求 极 大 值 ,或 者 : 


N 
In Ln(0) = > ln fly;| x ,uws,0) (12. 19) 
i 一 ] 


其 中 ,模拟 器 f() 已 在 式 (12. 17) 中 定义 。 如 果 f(*) 在 9 上 是 可 微 的 ,那么 利用 第 
10 章 的 标准 梯度 法 ,运用 解析 导数 或 数值 导数 来 计算 Gms 。 


12. 4.3 MSL 仿 计 量 的 分 布 


由 5. 3. 2 节 概 述 的 一 般 一 致 性 证 明 法 知 , 当 到 近 目标 了 销 数 N 'ln Ln (0) 具 有 
与 最 初 目 标 函 数 N“!inLn (90) 相同 的 概率 极限 , MSL 估计 量 将 具有 与 ML 估计 量 
同样 的 概率 极限 。 如 果 In 扬 一 In F 人 0, 那么 就 是 这 种 情况 ,同样 地 , 若 产 一 ;名 0， 
当 S->co 时 ,就 是 这 种 情况 。 

即使 MSL 估计 量 是 一 致 的 ,可 能 出 现 : 模 拟 误差 使 MSL 估计 量 的 方差 比 ML 
估计 量 的 要 更 大 一 些 。 举 一 个 例子 ,在 我 们 给 出 下 述 命题 , 即 MSL 估计 量 为 完全 
有 效 的 那 种 条 件 下 对 条 件 的 正式 叙述 ,而 此 命题 是 对 古里 耶 克 斯 和 蒙 福特 定理 
(Gouriéroux and Monfort，1991) 重 新 表述 而 形成 的 。 

命题 12. 1(MSL 估计 量 的 分 布 )[ 古里 耶 克 斯 和 蒙 福特 (Gouriéroux and Mon- 
fort,1991)] 假定 下 述 条 件 ; 

(i) 数据 来 自 具 有 条 件 密度 f(y|x,0,) 的 dgp 的 简单 随机 样本 ,并 满足 正则 条 
件 , 因 此 ,ML 估计 量 是 一 致 的 且 渐 近 正 态 的 ,其 极限 方差 矩阵 为 A (6 )， 其 中 : 


| 


(ii) 密度 f 可 利用 式 (12. 17) 的 模拟 器 来 估计 ,并 且 关于 了 是 无 偏 的 。 
于 是 , 当 S,，N 一 co 且 VN/S>0, 由 式 (12. 19) 定 义 的 极 大 似 然 模拟 (maximum 


giln fly; |x;,0) 
9d08930 





N 
A(b) =— plim| NT > 
i 一 1 
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simulated likelihood) 估 计量 是 渐 近 等 价 于 ML 估计 量 , 并 且 它 服从 极限 正 态 分 布 ， 
满足 : 


~ d 
VN(Ous —00) MM[O0, A !'(0,)] (12. 20) 


在 比较 弱 的 条 件 下 , 即 S,N->co 时 ,MSL 估计 量 实 际 上 是 一 致 的 。 例 如 ,如 果 
对 某 个 第 数 a 而 言 ,'S 一 N*/a, 那 么 这 就 得 到 满足 。 然 而 , VN/S 一 aN "1! 一 co, 因 
而 按照 命题 12. 1, MSL 估计 量 不 是 完全 有 效 的 。 由 通常 一 阶 泰勒 级 数 展开 式 ， 
VN(Ous 一 9) 的 极限 分 布 是 N 22 二 ,ain f;/961。 的 矩阵 倍数 ,它们 既 依 赖 于 
3ln fi/98 的 可 变性 ,又 依赖 于 近似 f; 的 模拟 误差 。 命 题 12. 1 表明 ,为 使 这 个 模拟 
误差 消失 , 渐 近 采样 次 数 必须 以 大 于 vVN 的 速率 随 样 本 量 而 增 大 。 

MSL 估计 量 的 方差 矩阵 需要 估计 A(0,)。 运 用 5. 5. 2 节 曾 经 定义 的 BHHH 
估计 的 模拟 变形 是 最 容易 的 。 由 于 aln fi;/90 二 (0f;/90)/fi, 关 于 信息 矩阵 的 BH- 
HH 估计 是 : 

昌 _ 3 9f:(0 )/90 9f:(0 )/90 
NE ff (0 ) 广 (0 ) 

因为 对 于 f; 以 及 9fi/90 来 说 ,不 存在 闭 形式 解 , 故 不 能 计算 这 个 表达 式 。 因 此 ,用 
式 (12. 17) 定 义 的 模拟 器 f; 代替 广 , 得 到 渐 近 方差 的 模拟 估计 : 

~ /2 9F(0)/90 35519F:(0 )/90\\ 

Vow =—( 2 ( y's fC(6) 5's £06) )) 
其 中 户 (0 ) 二 f(y |x ,ui ,bws)。 方 差 矩阵 的 可 供 选 择 的 估计 能 通过 类 似 于 5. 5. 2 
下 中 定义 的 三 明治 方法 估计 海 赛 矩 阵 。 

一 个 重要 的 实际 问题 是 模拟 次 数 。 当 样本 量 增 大 时 ,人 们 可 增加 模拟 次 数 , 但 
S 的 大 小 或 其 绝对 值 依然 不 确定 。 比 如 说 ,如 果 利 用 2 400 次 模拟 与 利用 2 600 次 
模拟 进行 估计 时 差异 很 小 ,那么 我 们 把 这 看 成 2 400 次 模拟 是 一 个 足够 多 次 数 的 象 
征 。 假 定 现在 样本 量 增 大 4 倍 。 我 们 应 增加 多 少 模拟 次 数 呢 ? 命题 12. 1 表明 ,应 
该 使 S 增 大 超过 2 倍 , 即 大 于 4 800, 因 而 ,NVS 比率 趋 于 零 而 递减 。 然 而 ,注意 
到 ,在 此 情况 下 ,比如 说 当 S 二 2 400 且 N=6 400,VN/S 等 于 1/30, 我 们 不 能 确定 
这 是 否 充分 接近 于 0。 因 此 ,对 于 人 们 是 否 做 了 充足 多 次 的 模拟 问题 ,很 难 给 出 一 
个 解答 。 许 多 应 用 者 均 依赖 于 点 估计 收敛 的 大 致 指示 变量 , 即 非 正 式 地 建立 在 检 
查 Ln (0) 的 梯度 基础 上 。 一 种 选择 S 的 基于 检验 的 正式 方法 是 由 哈 吉 瓦斯 利 奥 
(Hajivassiliou，2000) 给 出 并 加 以 探讨 的 。 


12. 4.4 许 整 浙 近 优 从 和 的 MSL 


当 模 拟 次 数 S 二 co 时 ,MSL 估计 量 是 非 一 致 的 或 渐 近 有 偏 的 。 即 使 模拟 器 广 
关于 f; 是 无 偏 的 ,由 于 取 自 然 对 数 的 结果 ,ln f; 关于 ln f; 是 有 偏 的 ,所 以 便 产 生 
了 这 种 偏 傈 。 因 而 ,对 于 有 限 S 来 说 ,N iin(Ln(0)) 与 N-'ln Lv (8) 具有 不 同 的 
概率 极限 。 因 为 不 能 设 S$= 王 ce ,并且 令 S$ 很 大 时 ,其 计算 量 花 费 也 很 大 ,这 就 激励 


(12.21) 


TH2 基于 模拟 的 方法 


本 可 


了 对 可 供 选 择 的 基于 模拟 估计 量 的 探索 研究 .。 

一 种 明显 的 方法 是 ,寻找 天 于 对 数 密 度 ln f; 而 不 是 广 的 无 偏 模 拟 器 ,但 在 实 
际 应 用 中 这 样 做 行 不 通 。 相 反 ,在 本 季 , 我 们 闸 述 MSL 的 校正 偏 倚 形式 ,并 在 下 一 
节 阐 述 一 种 可 供 选 择 的 比 MSL 稍 欠 有 效 的 估计 量 , 对 于 有 限 S 来 说 是 一 致 的 。 

古里 耶 克 斯 和 蒙 福特 (Gouriéroux and Monfort ，1991) 已 经 给 出 MSL 佑 计量 
的 一 种 有 偏 表达 式 。 对 于 固定 S 来 说 ,MSL 估计 量 的 非 一 致 性 源 于 下 述 事 实 :In 广 
是 In f 的 非 一 致 佑 计量。 减少 非 一 致 性 的 方法 是 ,使 用 调整 偏 倚 的 对 数 似 然 阴 数 。 
与 成 : 

In f =In| f+(f— f)] 

一 旦 在 ln 了 附近 取 二 阶 泰 勒 级 数 展开 式 ,得 到 : 


ff 


Inf 一 ln fT (J 


l 
2 Ff 





针对 的 密度 进行 积分 ,并 求解 jn 了 ,得 到 ，; 
1 EL(f—f)°] 
4 f 
假定 f 是 无 偏 模拟 器 , 则 Eu[ 门 = 广 。 很 明显 ,该 表达 式 使 得 具有 很 小 方差 的 模拟 
器 f 有 较 小 偏 倚 。 

校正 偏 倚 估计 量 使 用 建立 在 式 (12. 22) 右 边 项 基础 上 的 调整 对 数 似 然 。 对 于 
模拟 器 (12. 17) 来 说 ,等 于 S 13.f' ,而 EL(f 一 有 ?]] 等 于 S712,B[(fF 一 )?]。 
已 知 对 于 不 同 * 采样 是 独立 的 ,后 者 能 由 S12,( 疡 一 了 )? 来 通 近 。 那 么 ,由 式 
(12. 22) 得 到 ,一 阶 江 和 近 的 校正 偏 们 的 MSL (first-order asymptotic bias-corrected 
MSL) 估计 量 Opcmst 9 它 对 2 


ln ff 二 E,[ln 亡 ] 十 (12. 22) 


N 六 EE _ 7 2 
hy Lan(0)= > ， 〖 (yi | 天 Us 9) 十 二 一 一 一 一 
;一 ] ny x 3 2 fy; | x ,ts ,0)° 


求 极 大 值 , 其 中 ,f(y; ,X; Uis 10)—S >),f Cy, ,XxX;,U,0)。 册 于 侦 俩 是 很 小 的 假设 
可 能 并 不 总 成 立 , 故 这 种 缩减 偏 价 方法 的 效果 将 会 随 者 情况 不 同 而 变化 。 
12. 4. 5 不 可 观测 异 质 性 例子 

假定 Vi ~NI|0. ? 1 ;其 中 9 纯 量 参数 0; 随 不 同 个 体 而 变化 ， 即 0. —0Tu., ,| 而 U; 
表示 非 可 观测 的 异 质 性 ,wu 被 假定 成 为 服从 已 知 分 布 。 以 w 为 条 件 的 y 的 密度 正 是 : 


1 
exp{— (vy—0—u)’/2} (12. 23) 
vV 1 > 


不 过 ,对 9 进行 推断 需要 建立 在 y 的 边缘 密度 基础 上 (也 就 是 说 ,关于 x 的 边缘 密 
度 ) ,这 需要 积分 去 掉 w。 此 处 ,假定 wu 具有 和 密度. 
g(uU)—e “exp(—e “) (12. 24) 


为 了 简单 起 见 , 具 有 非 零 均值 的 斜 分 布 并 不 依赖 于 未 知 参数 。 





fly|u,0)= 
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| 


由 于 边缘 密度 f(y19) 等 于 | f(y19,wg(w)du，, 没 有 闭 形式 解 ,所 以 极 大 似 然 
估计 行 不 通 。 相反 ,利用 式 (12. 16) 直接 模拟 颖 ,我 们 运用 MSL 估 计量 ,因而 Os. 对 : 





S 
r _ l 1 1 
Inin(0) = N22 in(S2 P00)/2}) (12.25) 


求 极 大 值 ,其 中 Ui 5 一 ] ,SS 表示 从 式 (12. 24) 的 极 值 密度 g(w;) 中 采样 ,MSL 个 
计量 bws. 是 对 一 阶 条 件 : 


dlnLn(0)_1 D>) 
90 N exp{—(y,—0—u)’/2) 


求解 ,并 经 过 某 种 简化 而 得 到 的 。0 没有 闭 形式 解 ,但 可 用 一 些 标准 选 代 方法 计算 
Os O 

除 通 浓 样 本 量 N->co 以 外 ,MSL 估计 量 的 一 致 性 要 求 采 样 数 量 S->co, 因 此， 
该 方法 潜在 地 是 密集 计算 的 。 于 是 , 像 往 常 一 样 ,MSL 估计 量 服从 渐 近 正 态 分 布 ， 
其 渐 近 方差 最 容易 利用 BHHH 佑 计量 (12. 21) 进 行 估计 ,从 而 得 到 |. 


0O “(12.26) 


er SY FDS (0y 一 Ovs —u:)exp{— (yi— Om —u) /2} 12 一: 
一 sl) CMSL Wi CKP Ji CMSL Wiy /Lf 
VL ows, 这 | 2 1exp{—~ (yi— Omst —u:)?/2) | 
(12. 27) 


该 估计 量 是 完全 有 效 的 。 

为 了 简 述 方便 ,我 们 考察 满足 9 一 1 的 模型 (12. 23) 与 模型 (12. 24) 所 生成 的 样 
本 量 N= 二 100 的 样本 {(y ，…,yoo}。 表 12. 2 给 出 当 采 样 数 量 S 增 大 时 的 估计 值 。 
对 于 小 S 来 说 ,MSL 估计 量 是 非 一 致 的 ,对 于 S 王 10 000 来 说 ,尽管 估计 的 标准 误 
差 跳跃 得 相当 大 ,但 是 估计 量 9vsi. 稳 定 下 来 。 当 S 增 大 时 ,模拟 对 数 似 然 变 小 ,但 
最 终 稳 定 下 来 。 这 种 变 小 是 人 们 所 期 望 的 ,该 模拟 器 关于 f(y19) 是 无 偏 的 ,但 关 
于 In f(y19) 却 有 问 上 偏 们 ,因为 目 然 对 数 肾 数 是 全 局 站 的 ,由 负 森 不 等 式 知 ， 
In ELACyl9)] 盖 ELln f(y10)]; 参 见 附录 A(A. 8 节 )。 


表 12.2 极 大 模拟 似 然 估计 的 例子 


模拟 次 数 S 一 1] S=10 S 一 100 S 一 1 000 S 一 10 000 
MLS 估 计 值 6 1. 041 6 1. 059 4 1. 177 5 1. 184 5 1. 182 8 
标准 误差 (0. 096 8) (0. 109 3) (0. 145 3) (0. 144 8) (0. 009 1) 
in 1.(0) 一 136. 31 一 174. 38 一 190. 44 一 192. 43 192. 35 


12.5 基于 和 矩 模拟 估计 


当 目 标 涌 数 不 存 在 闭 形式 表达 式 时 ,模拟 售 计 方法 除了 能 被 推广 到 MLE 情 
况 之 外 ,还 被 推广 到 佑 计量 上 。 此 外 ,在 一 些 情 况 下 ,对 每 个 观测 值 仅 仅 使 用 很 少 
模拟 就 可 获得 一 致 参数 估计 值 是 可 能 的 ,尽管 这 样 做 会 损失 有 效 性 。 


2 基于 模拟 的 方法 


12. 5.1 模拟 m 估计 熏 
考察 具有 目标 函数 ， 
Qn (0) = NN 2 9Cy, , Xi ,0 ) 


的 m 估 计量 (参见 5. 2.2 节 )。 极 大 似 然 是 gq(y,x,0)= 二 ln f(y|x,0) 的 特殊 情况 。 
假定 a(*) 不 存在 团 形式 表达 式 , 但 可 利用 模拟 估计 。 于 是 ,模拟 m 估计 量 
(Simulated m-estimater) 是 对 


NN - 
QN(0) = N 2) GC, sx ,ts ;0) (12. 28) 
i=1 


求 极 小 值 ,其 中 类 似 于 12. 4. 1 节 ,d 表示 建立 在 适当 分 布 S 个 采样 & 的 向 量 us 
基础 上 gi 的 估计 值 ,$s 二 1,…:,S。 通 衣 ,6;(*)= 二 S|! 2 Cy; | xi ;0,u.) , 其 中 » U; 表示 
第 s 次 采样 。 
如 果 m 佑 计量 是 一 致 的 ,并 另外 满足 : 

plim Qv( 的 一 plimn Qn (0) (12. 29 ) 
那么 模拟 m 估计 量 将 是 一 致 的 ,因为 由 5. 3 节 知 ,初始 m 估计 量 一 致 性 的 必要 条 件 
是 plim Qn (8) 在 9 一 处 被 极 大 化 。 此 处 ,第 一 个 plim 是 关于 所 有 随机 变量 的 ， 
包括 模拟 来 样 us , 而 第 二 个 plim 则 不 依赖 于 uis。 


若 模拟 器 使 得 当 S->co 时 ,9 一 w 全 0, 则 条 件 (12. 29) 得 到 满足 ,从 而 


Nidqi 一 N- Do 二 0。 如 同 12.4 节 一 样 ,S 随 样本 量 增 大 ,因此 VN/S>0, 模 
拟 mm 估计 量 应 该 与 m 估计 量具 有 相同 的 极限 分 布 。 这 需要 许多 次 模拟 。 


12. 5.2 减少 模 扒 深 数 


现在 ,假定 模拟 器 6; 不 仅 是 一 致 的 而 且 是 无 偏 的 。 于 是 ,通过 应 用 大 数 定 律 ， 
并 且 为 了 简单 起 见 , 除 不 用 模拟 采样 以 外 ,还 不 用 随机 变量 , 故 plim Qn (9) = 
lim N 12, [6;] 二 lim NT'2,g; 二 plim Qnw(0) ,并且 条 件 (12. 29) 得 到 满足 。 因 
而 ,倘若 Eu. [6;j==g; ,模拟 m 估计 量 只 会 与 对 每 一 个 观测 值 w 采样 的 情况 相 一 致 。 

不 得 的 是 ,这 一 结 朱 很 难 实施 ,因为 在 应 用 中 几乎 极 少 会 找到 gq; 的 无 偏 模 拟 
佣 。 例 如 ,对 于 ML 估计 来 说 ,找到 密度 f; 的 无 偏 模拟 髓 是 可 能 的 ,但 要 找到 ln /; 
的 无 偶 模 拟 硕 是 不 可 能 的 。 类 似 地 ,对 于 NLS 估计 来 说 ,找到 条 件 均 值 的 无 偏 估 
计量 是 可 能 的 ,但 是 要 找到 误差 平方 的 无 但 模拟 耸 是 不 可 能 的 ,这 会 涉及 条 件 均 值 
的 平方 。 

可 是 ,在 一 些 情况 下 , 当 佑 计量 是 件 方 法 或 GMM 佑 计量 而 不 是 m 估计 量 时 ， 
就 可 实现 这 一 结果 。 


12. 5. 3 模 堆 入 方 法 


假定 理论 产生 一 个 条 件 矩 条 件 : 
Elm(y:;,x,0)|x; |=0 (12. 30) 
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为 了 简单 起 见 ,m(。) 表 示 纯 量 。 设 w; 表示 工具 ,可 能 作为 x 与 和 的 一 个 函数 ,满足 . 
El wm (oy, ,x,0,) |—=0 (12.31) 
和 矩 方法 估计 量 Gvwv (参见 第 6 章 6. 3. 1 节 ) 是 对 : 


] NN p ] N 
QN (0) = ND wm (yxi,0) | NO wm Cy x0) | (12. 32) 
i 三 1 :二 1 . 


求 极 小 值 , 其 中 为 了 简单 起 见 , 假 定 是 恰好 识别 情况 :dimLw;]= dim[9]j。 可 把 该 结 
东 推 广 到 过 度 识 别 的 情况 ,只 是 记号 显得 更 繁琐 , 这 是 因为 需要 引进 加 权 和 矩阵 ,并 
通过 GMM 加 以 估计 。 

起 方法 佑 计量 是 一 致 的 且 具 有 正 态 分 布 , 其 方差 矩阵 部 分 地 依赖 于 对 工具 w 
的 选取 。 一 个 例子 就 是 非 线 性 回归 ,其 中 ,m(y,x,0) 一 y 一 EL[Ly|xj 表 示 误 差 项 ,而 
条 件 均值 EL y|xj 是 x 与 6 的 一 个 设 定 肾 数 。 若 误差 是 同方 差 的 , 则 对 工具 的 最 佳 
选取 是 w 二 9ELy|xj/991。 ,从 而 矩 方法 估计 量 与 那些 NLS 估计 量具 有 相同 的 一 
阶 条 件 。 

现在 ,假定 mx(y,x,98) 没 有 闭 形式 表 达 式 。 例 如 , 非 线 性 回归 模型 可 能 缺少 条 
件 均 值 的 闭 形式 表达 式 。 然 而 ,mly,x,0) 是 一 个 积分 : 


mt( yi xX; ,0) 一 |h Cy 0) gu) du (12. 33) 


对 于 某 些 A(.) 与 &(") 来 说 , 它 没有 闭 形 式 解 。 这 时 ,不 再 可 能 有 和 托 方 法 估计 量 。 
模拟 矩 方法 (method of simulated moments， 记 为 MSM) 估 计量 bwsv , 它 对 


_ 了 nN 天 ] N 
QnN(0) 一 | 2) Wr Cy » xi ts ,0) | | 2 Wh Cy sx » us ,0) | (12. 34) 
i 一 1 ;一 ] 


求 极 小 值 ,其 中 ,六 (Cy; ,Xi ,us ,0) 表 示 关 于 mly; xi 9) 的 无 偏 模拟 器 (unbiased sim- 
ulator) ,满足 条 件 : 


El 六 Ci Xi， Ws ,0) |=—=m(y; ,x; 0) (12. 35) 


并 且 ws 表示 从 边缘 密度 g(u) 中 得 到 的 S 个 采样 ,而 S 之 1。 下 面 ,将 给 出 m 与 无 
偏 模拟 器 坟 ; 的 一 些 例 子 ， 


12. 5.4 MSM 仿 计 量 的 分 布 


MSM 估计 量 是 由 麦克 法 登 (McFadden，1989) 提 出 的 ,他 已 经 证 明 该 估计 量 
具有 下 述 性 质 。 

命题 12. 2(MSM 估计 量 的 分 布 ) 儿 麦克 法 登 (MecEFaddqen，1989)] 假定 下 述 
条 件 : 

(i) 数据 来 自 数 据 生 成 过 程 的 简单 随机 样本 ,其 中 ,m(y,x,80) 有 具有 如 同 式 
(12. 30) 的 零 条 件 期 望 ,并 且 wim(y,X,00) 具 有 如 同 式 (12. 32) 的 零 无 条 件 期 望 , 同 
时 一 些 条 件 得 到 满足 ,以 使 对 式 (12. 32) 求 极 小 值 的 MM 估计 量 是 一 致 的 且 渐 近 
正 态 的 。 


2 基于 模拟 的 方法 


(ii) 函数 mm(y,X, go) 是 由 式 (12.33) 定 义 的 ,并 可 利用 满足 式 (12. 35) 的 无 偏 
模拟 器 页 (y,Xy,go) 来 进行 估计 。 

于 是 ,对 于 国定 S 来 说 , 当 N 一 oo 时 ,对 式 (12. 34) 求 极 小 值 的 模拟 抵 方 法 估计 
量 (method of simulated moments estimator) 是 一 致 且 渐 近 正 态 的 ,并 服从 极限 正太 








分 布 ,满足 : 
VC 06) SN[O, A-!(0,)B(O,)A-1(0,)"] (12. 36) 
其 中 : 
A(Q,) = plim D3 pr (12. 37) 
并 且 : 
B(0,) = plim Dw Vm C0) I (12. 38) 


这 里 ,方差 Vl， | 既是 关于 给 定 zi 时 y; 的 条 件 分 布 ,又 是 关于 给 定式 (12. 35) 之 后 
采样 Uis 的 。 

在 给 出 该 命题 推导 之 前 ,我 们 注意 到 下 述 内 容 。 第 一 ,即使 S 王 1,MSM 估计 
量具 有 显著 的 成 为 一 致 的 性 质 。 第 二 ,对 于 有 限 的 S 来 说 ,会 损失 有 效 性 。Qwu 的 
方差 矩阵 与 Gvwsm 的 相同 ,只 是 对 于 MM 估计 而 言 , 式 (12. 38) 中 的 VLm;] 用 较 小 的 
VLm;] 人 代替。 第 三 , 当 S~>ce 时 ,由 模拟 引起 的 有 效 性 损失 将 会 消失 ,从 而 VLz ] 二 
V[Lm;j。 第 四 ,就 MM 估计 而 言 , 如 果 工 具 w 选 择 不 好 ,那么 与 其 他 一 些 估 计量 相 
比 ,尽管 S->co ,但 MSM 估计 量 仍 可 能 是 无 效 的 。 

MSM 估计 量 的 一 致 性 要 求 , 对 于 已 知 式 (12. 34) 与 式 (12. 32) 中 的 Qv (9) 与 
QN(8) 来 说 ,条 件 (12. 29) 要 得 到 满足 。 由 大 数 定 律 得 : 


plim* 2) win, 一 plim 和 2 WwW; EE, |.77; | 
其 中 ,第 一 个 plim 是 关于 所 有 随机 变量 的 ,而 第 二 个 plim 是 关于 除 模 拟 采 样 u 以 
外 的 所 有 随机 变量 。 这 里 ,EL7;j 二 mx; ,因为 坟 ; 是 一 个 无 俩 模拟 做 ,因此 有 
plim i 2) wm; = plim N ! >) Wm. 


这 同样 也 蕴含 ,plim Qv (90) 二 plim Qw (8)。 所 以 ,倘若 0 使 plim Qn (98) 极 大 化 ,这 
是 最 初 MM 估计 量 成 为 一 致 的 所 必需 的 , 则 90vwsm 是 一 致 的 。 
对 于 极限 分 布 来 说 ,对 Qv(6) 求 关 于 6 的 微分 ,得 到 


1 ~ or (0) 3 加 
(N22 WwW 0 ) NO wai(G) 一 0 


第 一 个 矩阵 是 满 秩 的 方 阵 , 因 而 ,gwvsv 等 价 地 满足 一 阶 条 件 : 
wi )=0 


其 中 ;77 0) 一 了 ;Ci Xi Ws ;0)， 利用 通 稼 在 0, 附近 的 准确 一 阶 秦 勒 级 数 层 开 式 ， 
得 出 : 
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Mr ri 


> wi, (01) + Dw hte) 2 2 (6 一 9) 一 0 
从 而 有 : 
~ 
VN(O -— 0.) —— (N” Sw 2 ee ) NI SY wo (0,) 
i 


现在 E,[9(0) jp a Lc) gy, /98, 因 此 ,右边 的 第 一 个 矩阵 收敛 到 
由 命题 12. 2 给 出 的 A(9,)。 右 边 的 第 二 项 服从 极限 正 态 分 布 , 其 均值 为 0 且 方 差 
矩阵 为 : 


N 
BC ) 一 plim 入 2, W;V| 7 (Oo ) |]w’ 
i 1 


如 同 命 题 12. 2 一 样 ,其 中 ,V[7i;(0o) | 表示 关于 ws 和 给 定 x; 时 分 布 的 方差 。 
由 于 Us 与 Vi 是 独立 的 ,从 而 : 
Val7mC00) |= VLE,Lm0) TE,LV,[L(0,) |] 
=V,[m(006) 1+E,[V,[L(0,)]] 


代入 上 式 后 ,就 会 得 出 命题 12. 2 给 出 的 B(0, ) 的 更 详细 的 定义 。 

由 于 出 现 E,[L VLmm(06)j 项 ,模拟 会 使 MSM 估计 量 的 方差 增 大 , 当 S->0 时 ， 
Ey,LV,[Lmx (6)j]] 趋 于 0。 在 特殊 情况 下 ,模拟 器 是 频率 模拟 器 ,可 以 证 明 ， 
Vyo[L 议 (00)j] 二 (十 1/S)V,[Lm(@o)j], 故 利用 频率 模拟 器 的 模拟 效果 会 使 MM 佑 
计量 的 方差 扩大 到 (1 十 (1/S))1， 


12.5.5 在 MSM 与 MSL 之 辣 选 择 


应 用 者 将 会 对 MSL 与 MSM 的 优 缺 点 进行 权衡 。 已 知 MSM 对 于 小 的 S 是 
一 致 的 ,并 且 进 一 步 地 为 了 保证 对 MLE 具有 一 个 良好 近似 ,确保 人 们 具有 充分 大 
的 S 集 合 是 困难 的 ,和 MSM 相 比 ,为 什么 MSL 更 受 欢迎 呢 ? 

首先 ,注意 到 MSL 原则 上 简单 易 行 ,并 且 直 接 实 施 。 给 定 参 数 假设 ,对 于 
MLE 方法 来 说 ,观测 值 的 最 优 加 权 是 内 在 的 。 与 之 相 比 ,类 似 于 GMM,MSM 要 
求 我 们 对 权 数 (或 工具 变量 ) 晴 数 与 残 差 的 线 积 进行 计算 ,而 这 些 成 分 可 能 是 相关 
的 。 例 如 ,GMM 估计 量 的 数值 (不 含 模拟 的 ) 不 稳定 性 已 由 奥 尔 顿 吉 和 西 格 尔 
(Altonji and Segal, 1996)( 参 见 6. 3. 5 节 ) 证 明 过 。 类 似 地 , 格 韦 克 、 基 恩 和 朗 克 和 尔 
(Geweke,，Keane,， and Runkle，1997) 以 及 麦克 法 登 和 和 鲁 德 (Mcfadden and Ruud ， 
1994) 都 曾经 提供 MSM 估计 量 不 稳定 性 的 证 据 。 不 过 ,尽管 简单 性 有 助 于 MSL， 
但 是 与 确保 应 用 时 有 足够 多 模拟 次 数 相 联系 的 一 些 问题 不 应 受到 低估 。 


12. 5.6 不 可 观测 的 异 质 性 例子 


我 们 回 到 lz. 4. 5 节 的 例子 上 。 于 是 ， y; ~ NM [60+tw;, 1 ,其 中 ,wu; 具有 式 
(12. 24) 给 出 的 密度 g(u;)。 由 于 ELy; 一 9 一 wj 二 0, 所 以 利用 甜 方 法 估计 量 来 估计 
0, 该 估计 量 是 

Ly,—0— EC) 一 0 (12. 39) 


fi 一] 
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的 解 , 从 而 得 到 gw 一 7 一 EL 如 。 假 定 ELz] 是 未 知 的 , 却 能 用 MSM 估计 量 bwsv 进 
行 求解 


1 忆 1 
N22 (% -I~ 52)-0 (12. 40) 


其 中 ,wi 表示 从 极 值 分 布 中 得 到 的 iid 随机 采样 。 

对 估计 方程 (12. 40) 求 解 , 得 到 : 

Ovsv 一 了 一 元 (12. 41) 

其 中 , 下 二 (NS) ! ;2 表示 既 对 NN 又 对 S 求 平均 值 。 不 过 ,更 一 般 地 讲 , 计 算 
MSM 估计 量 可 能 需要 迭代 法 。 

很 容易 获得 busw 的 方差 。 由 构造 知 ,zx 的 模拟 采样 互相 之 间 是 独立 的 ,并 具有 
原始 数据 y 的 形式 ,因此 VLOwsuj] 二 VL[ 玉 十 V[ 看 。 现 在 ,V[ 刀 二 (0? 十 1)/N。 巾 
于 直 表 示 的 NS 个 采样 平均 , 故 VL 二 w/NS, 由 此 可 得 ; 


V[Omwsm =V[y] 十 V[] (12. 42) 
十 1 oe 
-~N TNS 
这 里 用 到 了 2 二 CNS) "1 5 (wi 一 二 )? ,从 而 得 到 一 致 估计 。 
考察 来 目 满 足 9 二 1 的 模型 (12. 24) 所 生成 的 样本 量 N 王 100 的 样本 {y),…， 
yi }。 表 12. 3 给 出 , 当 采 样 次 数 S 一 co 时 ,MSM 估计 量 的 和 情况。 当 模 拟 次 数 S 增 
大 时 , MSM 估计 量 接近 于 矩 方法 估计 ,而 且 标 准 误 差 下 降 。 


表 12.3 模拟 矩 居 计 方法 的 例子 





模拟 次 数 S=1 S 一 10 S 一 100 S=1000 “”S$==coc (MM) 
MSM 估计 值 9 1.0073 1. 109 6 1. 201 2 1. 188 7 1. 187 9 
标准 误差 (0. 247 1) (0, 165 7) (0. 168 1) (0. 167 6) (0. 168 4) 


12.6 间接 推断 


在 本 节 ,我 们 概述 男 一 种 基于 模拟 的 针对 模型 进行 估计 的 方法 ,有 时 当 人 们 想 
要 运用 一 种 模型 或 相对 简单 地 估计 模型 时 ,就 要 用 到 这 种 方法 ,甚至 当 基 本 数据 生 
成 过 程 被 认为 是 更 复杂 且 较 难 佑 计时。 该 方法 存在 几 种 变形 与 解释 ;参见 上 古里 耶 
克 斯 、 蒙 福特 和 雷诺 尔 特 (Gourieroux，Monfort，and Renault，1993) 、 中 密斯 
(Smith，1993) 、 加 伦 特 和 陶 享 (Gallant and Tauchen，1996) 。 此 方法 有 时 还 被 称 
为 第 匹配 Cmoment matching) 方 法 。 本 节 的 解释 本 质 上 沿 着 前 面 提 及 的 第 一 类 参 
考 文献 线索 闻 述 。 

假定 在 参数 形式 上 被 设 定 的 数据 生成 过 程 用 pdf f(y; 9) ,96E 人 表示 ,其 参数 
相对 很 难 估 计 出 来 。 假 定 我 们 能 设 定 含有 数据 生成 过 程 户 (y; 8), BE RR 的 辅助 
模型 (auxiliary model) ,这 很 容易 通过 拟 ( 有 时 ,还 被 称 为 “ 伪 ”) 极 大 似 然 方法 进行 
估计 。 由 于 下 面 将 要 进一步 讨论 的 识别 原因 ,假定 8 的 维 数 并 不 小 于 8 的 维 数 , 即 
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r 之 9。 例 如 ,辅助 模型 可 以 是 对 精确 似 然 的 一 种 近似 ,或 者 它 可 以 是 近似 模型 的 一 
种 精确 似 然 。 对 于 给 定 样 本 来 说 , 设 司 表示 QML 估计 值 。 然 后 ,由 5. 7 节 讨 论 的 
结果 ,我 们 知道 , 9 通常 是 6 的 非 一 致 估计 量 ,同时 在 某 些 正则 条 件 下 , 它 依 概率 收 
伍 到 被 称 为 伪 真 实 (pseudo-true) 值 的 值 上 ,这 是 9 的 一 个 函数 , :把 辅助 模型 的 参 
数 与 数据 生成 过 程 的 那些 参数 联系 起 来 的 函数 被 称 为 绑 定 图 数 (binding 
function) , 记 为 h(C0) 。 该 呆 数 的 解析 形式 可 能 是 已 知 的 ,也 可 能 是 未 知 的 。 因 此 ， 
想 要 得 到 6 =h (8) 或 9 = 二 h IC9) ,可 能 并 不 总 是 可 行 的 。 
间接 推断 的 方法 可 用 于 获得 一 个 更 优 的 QML 估计 量 , 它 的 渐 近 偏 傈 要 小 于 局 
的 新近 偶 倚 。 其 思想 是 ,在 f(y; 0) 下 使 用 模型 通过 模拟 伪 观 测 值 y ”生成 ,并 在 
户 (y9; B) 下 ,运用 辅助 回归 来 估计 6B” ,其 中 ,s 表示 第 * 次 模拟 。 间 接 估 计量 通 
过 对 
0 一 arg min 8°— 8B) — BP) (12. 43) 


求解 加 以 定义 ,其 中 ,@ 表示 给 定 的 对 称 正定 短 阵 。 该 估计 量 类 似 于 6.7 市 几经 考 
虑 的 最 小 距离 估计 量 。 也 就 是 说 ,我 们 可 连续 不 断 地 生成 伪 观 测 值 ,并 对 建立 在 伪 
观测 值 基 础 上 的 辅助 模型 的 参数 进行 估计 。 这 种 迭代 连续 不 断 地 进行 , 直到 式 
(12. 43) 的 二 次 形式 被 极 小 化 。 一 个 非常 重要 的 关键 问题 是 ,生成 伪 随 机 观测 值 
yo 的 种 子 (seed) 要 保持 不 变 , 因 此 , 伪 观 测 值 对 于 不 同 模拟 的 变异 归 因 于 5? 中 的 
变异 。 

在 进一步 讨论 之 前 , 考 家 一 个 简单 惠 包 括 非 线性 数据 生成 过 程 与 线性 辅助 模 
型 的 特定 例子 。 其 动机 是 ,辅助 模型 应 该 是 容易 估计 的 ,同时 数据 生成 过 程 也 应 是 
容 多 估计 的 。 





设 数据 生成 过 程 具 有 如 下 形式 : 
yi —=exp(xy ) 十 好 (12. 44) 
i ~ 人 A/ 0， og | 
设 其 辅助 模型 是 下 述 形 式 : 
yi;—xB ee, (12. 45) 
Ei 一 人 /10， oe | 
注意 下 述 解释 : 
yg (在 辅助 回归 模型 下 ) 
alnELy|xj 3FELy|x| 1 、 网 
Dx Ix ~ EFy|x 7 (在 该 数据 生成 过 程 下 ) 


因此 , 绑 定 函数 是 YELy; |xj 二 8B, 或 者 7 一 (ELy;|xj) “BB。 注意 ,dim(B) 等 于 
dim| ~ |。 

已 知 数据 (x， Yi, :一 1,…,N) 与 最 小 二 乘法 估计 量 8, 并 已 知 N 维 伪 随 机 采 
样 , 记 六 uw'” ,利用 : 


y=exp(x’B) Tu 
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生成 y (i 一 1,…,NN) ,并且 获得 一 个 修正 估计 量 B37 二 (2xx/) ! 站 xy ,这 同 
样 可 用 于 生成 其 他 的 伪 观 测 值 集合 。 一 旦 使 ”固定 ,整个 模拟 过 程 是 一 个 反复 
过 程 ,一 直到 ( 6B? 一 B)9(B? 一 B) 接 近 于 人 们 期 望 精确 度 的 常 值 为 止 。 在 此 情 
况 下 ,有 理由 设 @ 等 于 单位 矩阵 或 者 等 于 XX, 而 后 一 种 选择 意味 着 ,来 自 辅助 模 
型 的 预测 是 对 目标 的 建 模 。 所 得 到 的 7 的 估计 就 是 间接 估计 量 。 

在 其 他 一 些 应 用 中 ,dim(68) 将 大 于 dim(0), 因 而 没有 唯一 的 9 值 可 被 利用 。 
实际 上 ,在 缺乏 解析 绑 定 函数 的 情况 下 ,即使 两 个 维 数 都 是 一 样 的 ,也 不 能 重新 获 
得 86。 于 是 ,人 们 对 辅助 模型 参数 的 最 佳 间接 估计 感到 满意 。 

为 了 理解 间接 估计 量 与 矩 匹 配 (moment matching) 之 间 的 联系 , 设 QR 一 XX; 那 
么 (83? 一 8)XX(CB? 一 BB) 二 (B*X 一 BX) (BB?X 一 BX), 这 表明 间接 估计 量 是 
与 分 布 的 一 阶 矩 相 “ 匹 配 ? 的 。 当 人 们 还 想 要 匹配 二 阶 和 矩 时 ,通过 其 他 参数 比如 方 
差 参 数 对 向 量 8 进行 扩大 。 因 此 ,如 果 人 们 愿意 的 话 , 就 能 匹配 多 阶 算 。 

在 正则 条 件 下 ,间接 估计 量 是 一 致 的 县 渐 近 正 态 的 。 对 于 其 他 详细 内 容 , 读 者 
参见 前 面 引 述 的 研究 。 


12.7 ”模拟 大 
如 同 12. 3.2 节 一 样 ,计算 : 
T= Elh(x)|= Jag ndr (12. 46) 


其 中 ,为 了 简单 起 见 ,x 经 常 表 示 纯 量 。 正 如 12. 3 节 , 此 处 zx 经 常用 于 表示 想 要 积 
分 去 掉 的 变量 ,而 在 应 用 部 分 中 , 当 x 表示 回归 元 时 ,就 用 uu 表示 想 要 积分 去 挥 的 
变量 。 

模拟 器 是 计算 了 的 一 种 方法 。 除 由 式 (12. 14) 给 出 的 直接 蒙特 卡 罗 积 分 法 以 
外 ,还 有 许多 方法 可 以 应 用 。 原 则 上 ,模拟 兹 应 是 一 个 无 偏 的 模拟 帮 , 并 是 光滑 的 ， 
因此 使 用 标准 的 迭代 梯度 法 。 虽 然 情 况 如 此 ,但 在 实证 研究 时 ,对 感 兴 趣 的 模型 进 
行 估 计时 ,所 耗 计算 时 间 则 是 一 个 难以 克服 的 障碍 。 我 们 对 众多 巧妙 方法 中 的 几 
个 加 以 阐述 ,这 几 种 方法 对 于 任何 给 定 的 模拟 采样 来 说 ,通过 减少 像 耳 接 蒙 特 卡 罗 
积分 法 这 类 粗 烟 方 法 的 模拟 方差 ,来 加 以 模拟 。 一 个 更 完整 的 综述 ,已 由 格 韦 元 和 
基因 (Geweke and Keane，2001) 给 出 。 


12.7.1 频数 模拟 阁 


我 们 以 一 个 例子 开始 , 即 能 用 于 某 些 离散 模型 的 频数 模拟 器 。 这 将 突出 模拟 
时 产生 的 几 个 新 困难 。 

假定 函数 h(x) 表示 指示 函数 , 即 当 xEA 时 ,h(x) 取 值 1, 和 否则 为 0。 于是, 想 
要 计算 ， 


7 = |1c E A)gCz)dz 
由 直接 蒙特 卡 罗 积 分 法 ,得 出 估计 值 : 
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其 中 ,x 表示 从 g(x) 中 得 到 的 S 个 采样 ,s 二 1,…,S。 这 称 为 频数 模拟 器 (frequency 
simulator) ,因为 它 是 通过 x’ 的 S 个 采样 落 入 A 之 中 的 相对 频数 来 进行 估计 的 。 

一 个 重要 的 潜在 应 用 是 一 -- 由 在 模拟 方法 方面 的 许多 经 济 计量 学 文献 所 激 
发 -一 一 12. 2.2 节 引 入 的 多 项 式 离散 选择 模型 。 对 于 三 种 可 供 选 择 的 模型 来 说 , 选 
择 由 式 (12. 3) 给 出 的 第 一 种 可 供 选择 的 概率 为 pi ,对 二 变量 正 态 分 布 的 正 象限 积 
分 。 从 而 ,频数 模拟 器 Pl 是 从 满足 wi 宇 0 且 wi; 宇 0 的 二 变量 正 态 分 布 得 到 的 采样 
(ui ，w; ) 比例 。 z 

频数 模拟 器 有 几 个 局 限 性 。 第 一 , 它 既 不 是 可 微 的 ,又 不 是 关于 参数 b 连续 
的 ,6 出 现在 1(xEA) 与 /或 g(xr) 之 中 。 

因此 ,6 小 的 变化 者 会 导致 相同 采样 数落 入 正 象限 中 。 鉴 于 这 种 原因 ,麦克 法 
登 (McFadden，1989) 以 及 帕 元 斯 和 波 拉 德 (Pakes and Polland，1989) 曾经 提出 涵 
盖 这 类 非 光 滑 模 拟 器 的 更 一 般 渐 近 理 论 。 不 过 ,在 实际 应 用 中 ,一 种 最 好 的 方法 
是 ,运用 可 供 选 择 的 关于 参数 是 可 微 的 光滑 模拟 器 (smooth simuiators) .因为 这 人 允 
许 利 用 通常 的 梯度 法 进行 计算 。 

第 二 , 如果 仅 有 一 小 部 分 xEA, 那 么 模拟 器 是 非常 无 效 的 。 例 如 ,对 于 含有 
户 一 0. 001 的 离散 选择 模型 来 说 ,甚至 拥有 10 000 个 采样 ,估计 值 pi 将 含有 相当 
大 的 品 声 。 更 一 般 地 讲 ,如果 采 样 x 的 概率 在 h(x) 相 对 大 的 范围 内 是 很 小 的 , 那 
么 具有 连续 h(x) 的 直接 蒙特 卡 罗 计 算式 (12. 46) 会 产生 类 似 问 题 。 

第 三 ,即使 模型 利用 0<T<1, 并 对 估计 模型 来 说 ,这 个 条 件 是 必需 的 ,此 模拟 
器 在 边界 上 可 能 出 现 问题 ,给 出 估计 值 1 二 0 或 1 二 1， 


12.7.2 重要 却 枪 


重要 抽样 模拟 突 (important sampling simulators) 是 将 积分 式 (12. 46) 重 新 
写成 : 


I = | (SE ) pz)az (12. 47) 


一 [wn p ndr 


其 中 ,p(xr) 表 示 选 取 的 密度 函数 ,以 使 :(a) 很 容易 从 p(x) 中 获得 采样 ;(b) p(x) 
与 最 初 的 积分 定义 域 具有 相同 的 支 集 ;(c) w(x) 二 h(x)g(xr)/p(x) 很 容易 计算 ,并 
且 是 有 界 的 ,同时 具有 有 限 方 差 。 然 后 ,我 们 运用 基于 式 (12. 47) 而 不 是 式 (12. 46) 
的 直接 蒙特 卡 罗 积 分 法 估计 : 


S 
二 


其 中 ,x’ 均 是 从 p(z) 而 不 是 从 g(z) 采 样 ,s 一 1,…,S。 重 要 的 抽样 术语 是 由 w(x) 
决定 样本 空间 中 不 同 点 的 权 数 或 者 “重要 性 ”而 得 来 的 。 在 贝 叶 斯 模拟 文献 中 , 重 
要 抽样 已 被 运用 许多 年 , 它 是 由 克 洛 元 和 范 迪 克 (Kloek and van Djk，19787 引 人 
贝 叶 斯 经 济 计 量 学 中 作为 计算 后 验 分 布 的 一 种 方法 。13. 4 节 将 进一步 讨论 这 个 


2 基于 模拟 的 方法 


™ nr 


内 容 。 
己 知 来 自 p(x) 的 独立 采样 ,重要 抽样 器 Js 具有 方差 5 !V,[rw(x)]。 很 明显 ， 
当 w(z) 在 整个 积分 范围 上 是 一 个 常 值 时 ,方差 达到 最 小 值 , 从 而 V [w(x) |] 为 0。 
这 通过 令 w(x) 二 ELh(x) 来 完成 ,进而 如 (z) 一 Arz)gCz)VE LACz) 是 积分 为 1 
的 密度 。 不 幸 的 是 ,在 理论 上 ,这 种 理想 的 重要 抽样 估计 行 不 通 , 因 为 E.[Am(z)] 是 
未 项 的 。 不 过 ,尤其 是 如 果 选 取 p(x) 以 使 w(x) 是 相当 平坦 的 ,那么 它 表 示 运 用 重 
要 抽样 的 潜在 好 人 处。 

即使 重要 抽样 使 方差 增 大 ,在 实际 应 用 时 会 出 现 这 种 情况 , 它 却 具有 其 他 方面 
的 吸引 力 。 夺 ww(z) 在 估计 参数 方面 是 光 请 的 , 则 它 产 生 光 滑 抽 样 器 。 此 外 ,倘若 
从 sz) 采样 很 困难 ,就 可 运用 该 方法 ,正如 当 是 相关 时 ,随机 变量 经 常 遇 到 的 
情况 。 

对 于 多 项 式 probit 离散 选择 模型 来 说 ,一 种 流行 的 重要 抽样 器 是 GHK 抽样 
器 (GHK simuiator) , 归功 于 格 韦 克 (Geweke，1992)、 哈 吉 斯 利 奥 和 麦克 法 登 
(Hajivassiliou and McFadden，1994), 述 有 基因 (Keane，1994)。 这 种 模拟 器 会 递 
扫地 截取 多 变量 正 态 pdf ,以 使 采样 被 限制 在 正 象 限 上 。 与 频数 模拟 器 相 比 ,该 模 
拟 盘 的 优点 是 , 它 是 光滑 的 ,需要 较 少 的 具有 很 小 概率 的 可 供 选 择 的 采样 ,并 不 可 
能 出 现 边 界 问 题 。 


12.7.3 甩 对 倍加 证 缩减 方差 


前 面 方 法 都 假定 从 适当 分 布 诸如 g(x) 中 独立 采样 ,或 者 如 果 使 用 重要 抽样 ， 
利用 将 在 12. 8 节 话 述 的 一 些 方法 ,从 p(x) 中 独立 采样 。 

相反 ,方差 减少 (variance reduction) 方 法 使 用 相关 采样 ,因为 这 些 能 缩减 模拟 
器 的 方差 。 一 个 重要 例子 是 对 偶 抽 样 Cantithetic sampling) , 它 运 用 人 负 相 关 的 采样 。 
里 普 利 (Ripley，1987 ,第 129~132 页 ) . 格 韦 克 (Geweke，1988) 以 及 哈 吉 瓦 斯 利 奥 
(Hajivassiliou，2000) 都 对 这 种 方法 进行 了 讨论 ,而 格 韦 克 (Geweke，1995) 曾 经 综 
述 这 个 方法 以 及 其 他 几 种 缩减 方差 的 方法 。 

假定 我 们 想 要 计算 式 (12. 46) 的 积分 I, 其 中 ,zx 被 假定 成 具有 和 零 均值 且 对 称 密 
度 为 g(x)。 建 立 在 从 g(Cz) 中 得 到 的 2S 个 模拟 iid 采样 基础 上 的 直接 蒙特 卡 软 积 
分 法 估计 是 : 


24 
hss Cx) 一 jh 
而 且 , 已 知 2S 个 采样 的 独立 性 , 则 有 方差 : 
V[hss(Cz)] 一 二 VIACz)] 


对 偶 抽 样 C(antithetic sampling) 运 用 仅仅 建立 在 S 个 iid 采样 基础 上 的 可 选择 估计 
值 是 : 


SS 
js(z) 一 专 >) Fh) Th )) (12. 49) 
“一 


这 表示 h(x) 在 x 与 一 x' 上 计算 值 的 平均 。 序 对 (x’, 一 zx’) 称 为 对 偶 序 对 (anti- 
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thetic pair) ,同时 由 于 假定 x 是 均值 为 0 的 对 称 分 布 ,所 以 得 到 一 个 无 偏 的 估计 
值 。 不 过 , 当 均 值 为 yy 时 ,(x', 2y 一 x') 就 是 一 个 对 偶 序 对 。 已 知 z' 的 S 个 独立 采 
样 ,ha,s(x) 方 差 是 : 


5 
VLAAsCz) | 一 辟 VLA) | 十 2Covl hx), h(— zx) | VLh(— xr’) |) 
$= 1 
一 ze( VLh(z)] 十 Cov[A(Cz)， h(— x)]) 


因此 , 当 协 方差 项 为 负 时 ,对 侦 抽 样 将 比 常 规 的 iid 抽样 更 为 有 效 , 从 而 
ha,s(X) 的 方差 比 hzs (zx) 的 要 小 。 通 过 改变 采样 的 符号 ,然后 再 用 采样 ,以 此 尝试 
缩减 模拟 器 的 负 相 关 。 当 函数 是 线性 的 时 候 , 若非 线 性 不 太 严 重 , 可 确定 有 人 负 相 
关 。 可 是 ,通常 人 们 不 能 确信 有 效 性 提高 将 会 实现 。 例 如 ,如 果 hC.) 关 于 0 是 对 
称 的 ,那么 CovLACz), 产 (一 zx)] 一 VIACzr) ]。 

可 将 对 偶 抽 样 推广 到 对 称 密度 g(z) 上 。 假 定 可 利用 稍 后 12. 8. 2 节 给 出 的 
逆 变 换 方 法 进行 采样 。 比 如 说 ,人 们 从 均匀 分 布 L0，1j 中 采样 wx 来 生成 对 偶 变 换 
(1 一 &) ,然后 运用 逆 变 换 方 法 从 选择 的 分 布 进行 采样 ,因此 zi 二 G '(wu) 自 x; 二 
G1(1 一 ww) ,其 中 ,G(*) 表 示 工 的 已 知 cdf。 于 是 , 当 : 

Cov[hGT1 0)), hCG (1—w)) |=CovL ff 0), f(1—wu)j<o0 
《x1，X2 ) 就 形成 有 对 偶 序 对 ,并 出 现 方差 缩减 ,其 中 , f(w) 表 示 复 合 肾 数 h(G (zx) )。 
如 果 乒 ") 表 示 单 调 图 数 , 那 么 方差 就 减少 了 [罗伯特 和 卡 塞 拉 (Robert and Cesella， 
1999, 第 112 页 )]。 不 过 ,该 顺 数 的 这 一 性 质 很 难得 以 验证 。 进 一 步 地 ,此 讨论 仅 
仪 用 于 道 变 换 方法 ,而 在 实际 应 用 中 其 他 一 些 方法 可 用 于 伪 随 机 数 生成 (参见 
12. 8 节 )。 因 此 ,在 特定 应 用 中 ,要 达到 预先 验证 有 效 性 提高 (增益 ) 的 一 些 条 件 是 
很 困难 的 。 

尽管 在 更 复杂 设置 的 情况 下 ,戏剧 性 提高 有 效 性 可 能 在 一 些 特殊 情况 下 不 会 
出 现 , 但 在 许多 情况 下 ,提高 有 效 性 是 值得 做 的 。 对 偶 抽 样 还 能 用 于 加 速 重 要 抽样 
| 丹尼尔 森 和 理 查 德 (Danielsson and Richard，19937) |。 

可 将 对 偶 抽 样 推广 到 多 变量 抽取 。 考 察 二 变量 采样 (z，y)， 其 密度 关于 
(0, 0) 对 称 。 在 这 种 情况 下 ,符号 反 转 要 先 用 于 逐个 元 素 ,然后 形成 一 个 序 对 。 因 
而 ,对 侦 四 元 组 是 由 (zy 一 Vy) (TT 一 yy) (一 XxX' ,一 yy’)) 构 成 的 。 对 
于 m 维 采 样 来 说 ,同样 的 思想 对 所 有 多 元 组 不 断 重 复 进行 。 


12.7.4 用 准 随 机 序列 计算 


第 二 种 缩减 方差 的 方法 是 ,用 准 随机 数 ‘17(quasi-random numbers) 代 蔡 伪 随 
机 数 , 其 目的 是 提供 更 好 的 样本 空间 运用 系统 模拟 采样 。 该 方法 的 潜在 局 限 性 是 ， 
随机 性 要 求 应 用 大 数 定 律 与 中 心 极限 定律 为 基于 模拟 的 方法 提供 证 据 。 

准 蒙特 卡 罗 方 法 在 积分 定义 域 中 使 用 非 随机 点 代 葵 使 用 S 个 伪 随 机 点 。 一 个 重 
要 例子 是 ,由 普 雷 斯 等 人 (Press et al ，1993) 概 括 的 霍 尔 顿 序 列 (Halton sequences ) ， 


[1] 又 称 为 拟 随 机 数 。 一 一 译 者 注 
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并 由 布 哈 特 (Bhat，2001) 与 特 雷 恩 (CTrain，2003) 引 和信 经济 计 量 学 文献 中 。 

霍 尔 顿 序列 拥有 两 个 人 们 期 望 的 性 质 。 第 一 ,利用 它们 设计 成 给 出 抽样 分 布 
定义 域 的 相当 均匀 的 范围 。 就 每 个 观测 值 的 更 均匀 散布 采样 而 言 ,相对 于 那些 随 
机 来 样 计算 来 说 ,模拟 概率 会 很 少 随 不 同 观测 值 而 变化 。 这 类 似 于 特定 网 格 上 对 
积分 进行 确定 计算 。 第 二 ,就 堆 尔 顿 序 列 而 言 ,一 个 观测 值 的 采样 会 填 满 由 先前 观 
测 值 留 下 的 空 日 区 。 因 此 ,模拟 概率 对 不 同 的 观测 值 是 负 相 关 的 。 如 同 对 偶 变 量 
情况 一 样 ,这 种 负 相关 缩减 了 模拟 图 数 的 方差 。 在 适当 正则 条 件 下 ,可 以 证 明 ,与 
收 征 速率 为 N ”的 伪 随 机 序列 相 比 ,利用 准 随 机 序列 的 积分 误差 是 阶 数 为 N ! 的 
形式 | 布 哈 特 (CBhat，2001) ]。 

电 尔 顿 序列 最 好 通过 例子 加 以 阐述 。 假 定 作 为 模拟 的 函数 依赖 于 单个 随机 变 
量 。 其 起 点 是 一 个 素数 。 建 立 在 素数 2 基础 上 的 霍 尔 顿 序 列 是 如 下 构造 的 。 把 单 
位 区 间 (0,1) 分 成 两 部 分 。 分 割 点 1/2 成 为 堆 尔 顿 序列 的 第 1 个 元 素 。 接 下 来 ,把 
每 个 部 分 分 成 两 个 部 分 。 分 割 点 1/4 与 3/4 成 为 该 序列 的 随后 两 个 元 素 。 对 这 四 
个 部 分 的 每 一 个 都 分 成 两 部 分 ,从 而 连续 不 断 地 获得 序列 {1/2，1/4，3/4，178， 
3/8,… 。 类 似 地 ,建立 在 素数 3 基础 上 的 序列 是 {1/3, 2/3, 1/9, 2/9，4/9，…)} 。 
建立 在 非 泰 数 上 的 答 尔 顿 序 列 不 是 唯一 的 ,因为 非 素数 的 霍 尔 顿 序列 以 同样 方式 
对 单位 空间 进行 分 割 作 为 构造 非 素 数 的 素数 。 

每 个 序列 长 度 由 观测 值 个 数 N 与 模拟 采样 S 次 数 来 决定 。 对 于 不 同 素 数 的 
霍 尔 顿 序 列 来 说 , 当前 面 一 些 元 素 具 有 相关 趋势 时 ,人 们 将 放弃 该 序列 的 前 几 个 
(比如 说 ,20 个 )[ 例 如 , 参见 特 雷 恩 CTrain，2003)]。 因 此 ,人 们 能 通过 生成 长 度 
为 NXS 十 20 的 和 瞧 尔 顿 序列 开始 ,然后 放弃 每 个 序列 的 前 20 个 元 素 。 对 于 每 个 序 
列 的 每 一 个 元 素来 说 ,计算 宗 积 正 态 分 布 的 阔 。 所 得 到 的 值 是 , 源 自 抽样 分 布 的 替 
尔 顿 采样 (Halton draws) 。 

准 随机 数 采 样 的 一 个 重要 优点 是 ,采样 被 用 于 设计 成 比 在 伪 随 机 数 情 况 下 更 
均匀 的 方式 涵盖 随机 数 的 样本 空间 。 实 际 上 ,由 图 12. 1 已 经 看 到 这 点 。 在 该 网 
上 ,第 2 个 图 形 表 明 ,利用 霍 尔 顿 序列 从 所 构造 的 二 变量 正 态 分 布 中 得 到 的 采样 。 
其 余 三 个 图 形 表明 ,从 同一 分 布 中 得 到 的 伪 随 机 数 。 在 前 者 情况 下 ,显然 样本 空间 
范围 显得 更 为 均匀 。 

在 一 维 或 者 多 维 情况 下 ,使 用 稚 尔 顿 采 样 的 基于 模拟 估计 的 例子 与 更 为 深入 
全 面 的 讨论 ,以 及 给 人 留 下 深刻 印象 的 该 种 方法 的 相对 有 效 性 证 据 , 参 见 特 雷 恩 
(Train，2003, 第 9 章 )。 对 于 服从 正 态 分 布 的 随机 参数 的 多 项 式 logit 模型 来 说 ， 
该 方法 会 很 好 地 起 作用 (参见 15.7 节 )。 


12.8 随机 变量 采样 方法 


前 面 模拟 筑 要 求 对 随机 变量 进行 采样 。 在 本 节 ,我 们 概述 从 密度 中 进行 这 类 
采样 的 一 些 方 法 ,在 12. 7 市 将 密度 记 为 gCz) 或 p(xz), 而 在 本 节 则 将 其 记 为 f(z)。 
通常 ,从 均匀 分 布 或 标准 正 态 分 布 (在 大 部 分 流行 软件 里 ,这 是 可 能 的 ) 中 获得 采样 
就 足够 了 ,因为 这 些 能 形成 不 同 于 均匀 或 正 态 分 布 中 得 到 的 采样 。 
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第 二 组 : 伪 随 机 采样 第 四 组 : 伪 随 机 采样 
12.1 乱 尔 顿 采样 (第 二 组 ) 与 伪 随 机 采样 的 比较 


如 果 采 样 是 用 于 基于 模拟 的 估计 ,为 了 防止 “ 闸 动 ”, 那 么 所 有 出 自 均 匀 或 标准 
下 态 的 采样 都 应 该 在 任何 估计 之 前 完成 ,迭代 法 收敛 失败 的 原因 在 于 ,在 每 一 次 迭 
代 时 由 新 的 采样 所 产生 的 噪声 。 例 如 , 若 xX~NV[Lp, 只] 且 w 与 c 的 估计 随 着 迭代 
而 变化 , 则 我 们 做 出 z~NL0, 1j 的 NS 个 最 初 采 样 , 然 后 对 于 不 同 迭 代 利 用 z 的 
最 初 来 样 ,重新 计算 zx 一 /十 cz。 

本 节 提 供 关 于 生成 随机 变量 的 某 些 标准 方法 的 基本 讨论 。 对 于 更 高 等 的 广泛 
人 研究 内 容 有 许多 好 的 著作 ,包括 由 布 拉 德 利 , 福 克 斯 和 施 拉 格 (Bradler, Fox, and 
Schrage，1983), 达 格 珀 纳 (Dagpunar，1988), 德 夫 罗 尔 (Devroye，1986), 以 及 里 
普 利 (Ripley，1987) 的 那些 文献 。 

在 阐述 方法 之 前 ,注意 ,随机 数 生成 术语 是 一 个 矛盾 形容 法 (oxymoron)。 一 
种 更 准确 的 描述 ,可 通过 伪 随 机 数 (pseudo-random numbers) 给 出 。 这 些 生 成 元 的 
基本 特征 是 ,它们 使 用 确定 性 装置 生成 可 模仿 来 自 某 个 目标 分 布 实现 性 质 的 很 长 
的 一 串 数 。 特 定 的 目标 分 布 将 依赖 于 背景 内 容 , 只 是 对 本 书 来 说 ,均匀 分 布 . 正 态 
分 布 .指数 分 布 、 仙 玛 分 布 logistic 分 布 以 及 泊 松 分 布 都 是 标准 的 。 一 连 串 过 程 则 
是 通过 提供 种 子 数 (seed) 开 始 的 。 在 某 个 有 限 却 很 大 的 次 数 之 后 ,对 数 自身 周 而 
复 始 的 重复 过 程 便 生 成 了 。 也 就 是 说 ,计算 机 算法 将 会 准确 地 生成 以 给 定 种 子 开 
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始 的 相同 数 。 一 个 好 的 随机 数 生 成 元 是 ,可 不 用 再 次 循环 且 不 用 任何 内 置 相依 性 
而 生成 一 长 串 数 。 在 选择 生成 元 中 ,一 个 重要 的 考虑 是 ,在 合理 计算 成 本 下 生成 分 
布 是 否 密切 地 模仿 了 目标 分 布 的 性 质 。 


12. 8.1 伪 随 机 均 与 数 竺 成 元 


伪 随 机 均 习 数 (pseudo-random uniform numbers) 是 利用 模仿 均 匀 随机 数 序列 
的 统计 性 质 的 确定 性 序列 而 构造 的 。 一 个 好 的 生成 元 具有 很 长 的 周期 ,接近 于 均 
习 分 布 , 同 时 生成 独立 的 采样 。 重 要 的 是 拥有 一 个 好 的 生成 元 ,实际 上 作为 来 自任 
何 分 布 的 伪 随 机 数 , 都 能 通过 对 均匀 伪 随 机 数 进行 变换 而 获得 [ 布 拉 德 利 等 人 
(Bradley et al. ，1983, 第 24 员 ) |。 

一 个 标准 的 生成 元 是 以 方程 : 

Ai 一 (RAXi-1 十 c) modm 

开始 ,其 中 , 当 a 被 5 除 时 , 模 数 映射 a mod 5 形成 了 余数 。 从 而 ,产生 0 与 1 之 间 
的 整数 序列 ,然后 ,获得 均 习 随机 变量 作为 Rj 二 XX;/m[ 里 普 利 (Ripley, 1987, 第 20 
页 )]。 对 于 Xo 的 一 个 值 一 一 称 之 为 种 子 数 (seed) ,需要 引进 生成 元 。 所 生成 的 均 
匀 随 机 序列 都 是 确定 性 的 , 倘 大 分 析 是 以 该 种 子 的 同样 数值 进行 重复 ,这 便 像 应 采 
样 同样 的 数 那样 使 复制 成 为 可 行 的 。 如 果 计 算是 利用 32 位 整数 完成 的 ,那么 算术 
最 大 周期 性 近似 为 2*” 二 2. 1X10?。 不 过 ,容易 选 到 不 好 的 Xo 以 及 c ,所 以 周期 
性 比 这 要 更 小 些 。 诸 如 普 雷 斯 等 人 (Press et al ，1993) 所 撰写 的 书 , 都 提 及 潜在 
陷阱 的 问题 。 


12. 8. 2 非 均 义 变量 


来 自 许 多 其 他 分 布 ,包括 正 态 分 布 自 喘 的 一 些 随机 变量 ,通常 都 建立 在 均 实 随 
机 数 的 最 初 采 样 上 。 四 种 普 裔 运用 的 方法 是 :(1) 逆 变换 ; (2) 变 换 ; (3) 锋 选 法 ;(4) 
混合 与 合成 。 

地 变换 

设 F(X) 表示 连续 随机 变量 x 的 cdf, 即 ， 

F(x)=Pr| Xx | 
已 知 均 名 变量 的 一 个 采样 7,0 志 rr 过 1, 首 变换 (inverse transformation ) : 
=F (Cr) 

就 给 出 z 的 唯一 个 ,因为 和 是 连续 且 单 调 递 增 的 。 

例如 ,单位 指数 的 cdf 是 1 一 e "。 求解 r 二 1 一 e ,得 出 x 二 一 ln(1 一 r)。 当 我 
们 从 均 句 L0，1 |] 中 进行 采样 且 得 到 0. 64 时 ,x 二 一 ln(1 一 0, 64)。 图 12.2 夯 出 六 
的 cdf ,并 显示 出 这 种 方法 从 图 形 上 看 是 如 何 起 作用 的 。 纵 坐标 轴 上 的 任何 点 在 高 
度 ”处 选取 , 而 其 横 轴 上 的 对 应 值 可 通过 画 出 长 方形 来 获得 。 这 就 是 逆 变 换 。 

尤其 是 ,如 果 大 () 的 解析 形式 已 知 , 并 且 .z 是 连续 随机 变量 ,那么 这 一 方法 很 
容易 使 用 。 若 没 有 财 形式 表达 式 可 利用 , 则 该 方法 经 常 仍 是 可 行 的 ,尽管 在 计算 上 
代价 会 更 高 一 些 , 因 为 标准 分 布 的 道 cdf 经 常 在 程序 中 作为 函数 而 得 以 利用 。 
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和 


逆 变 换 方法 
1 
0.8 
全 06 
a, 
皇 
D 0.4 
0.2 
0 
0 1 2 3 4 5 
随机 变量 x 


采样 为 0.64 ( 维 坐 标 轴 ) 时 ， 得 出 x =1.02 ( 横 轴 ) 


12.2 ”从 单位 指数 中 进行 采样 的 道 变换 。 随 机 均匀 采样 为 0. 64 
| 因而 ,F(x) 二 1 一 exp( 一 xz) 一 0. 64], 得 出 x 二 1. 02， 


这 个 方法 能 被 推广 到 cdf 是 阶梯 函数 的 离散 变量 上 ,例如 , 当 z 取 整 数值 时 ， 
均匀 采样 ”一 0. 312 会 得 出 x 二 ;7 的 采样 ,其 中 ,整数 /使 得 F(j 一 1) 二 0. 312 且 
F(7)>0.312, 

生成 正 态 随机 变量 的 标准 方法 是 博克 斯 一 米 勒 (Box - Muller) 方 法 。 这 要 运 
用 逆 变 换 方法 ,把 其 应 用 于 两 个 独立 的 正 态 变量 联合 分 布 而 不 是 单个 变量 上 。 特 别 
地 , 厂 7 1 与 7 2 都 是 lid 月 均匀 的 , 则 X11 V 一 2ln ricos(2rr; ) 与 之 2 一 V 一 2in ri X 
sin(C2rr ) 都 是 iid 的 并 服从 NW10,1 |。 

变换 

在 一 些 情况 下 ,具有 人 们 期 望 密度 的 随机 变量 ,通过 对 很 容易 从 其 分 布 中 抽取 
的 那些 随机 变量 ,进行 适当 的 变换 (transformation) 而 获得 。 然 后 ,通过 运用 这 个 
相同 变换 得 到 随机 变量 。 

这 样 的 变换 方法 是 ,一 种 明显 的 从 基于 正 态 分 布 中 获得 采样 的 方法 。 一 些 例 
了 于 包括 ,平方 标准 正 态 变 量 可 获得 含有 中 心 卡 方 分 布 的 随机 变量 ,一旦 添加 > 个 独 
立 的 标准 正 态 变量 的 平方 值 ,会 产生 具有 r 个 自由 度 的 卡 方 变量 ,同时 计算 独立 卡 
方 的 均值 平方 ,可 产生 下 分 布 的 随机 变量 。 变 换 方 法 并 没有 被 限制 在 基于 正 态 分 
布 上 。 

筛选 法 

假定 我 们 想 要 从 密度 f(z) 中 进行 采样 ,这 很 困难 ,不 过 ,存在 对 于 所 有 x, 对 
某 一 有 限 津 值 , 在 f(x) 志 kg(zx) 的 意义 上 ,涵盖 f(x) 的 男 外 一 个 密度 g(x) ,这 已 
画 在 图 12. 3 之 中 ,其 中 , 粗 线 用 来 拟 合 包 络 线 &g(z)。 

人 入选 法 (accept-reject method) 是 从 g(x) 而 不 是 从 FCz) 获 得 采样 。 当 : 


, fx) 
kg(lz) 


就 接收 采样 ,z=”， 其 中 ,表示 从 均匀 分 布 得 到 的 采样 。 知 上 述 条 件 不 满足 ,就 拒 
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-= 


f(x) 和 g(x) 





12.3 从 密度 g(z) 中 采样 的 第 选 法 , 其 中 ,kg(z) 包 络 了 人 们 期 望 的 密度 f(x)。 


绝 采 样 ,并 进一步 地 进行 采样 ,一 直到 条 件 得 以 满足 。 该 方法 的 吸引 力 依赖 于 从 
g(x) 中 很 容易 获得 采样 而 不 是 f(x) 采样 。 其 局 限 性 在 于 平均 采样 将 以 概率 1/& 
被 接收 ,所 以 当 衣 很 大 时 ,就 要 求 有 众多 采样 。 

为 了 理解 这 一 方法 是 如 何 起 作用 的 , 设 Y 表示 通过 筛选 法 生成 的 随机 变量 ,XX 
表示 具有 密度 g (x) 的 随机 变量 ,而 U 表示 从 均匀 分 布 得 到 的 采样 。 于 是 ,Y 具有 
cdf : 

PrlY 委 可 j 王 PrLX 委 yy|D 雪 flr) /ke (r) | 
加 Pr X < y, UA fr) /kg (zx) | 
Pr[U < f(x) /kg (x) | 


y fr) /ke (7) 
| | dug (zx) dr 


| [fw /hg (x) gr) dr 
| | Lf) /kg x) gr)ar 
|” [fr) /eldz 
| | [f(z) /kar 
= | rod 


如 同 所 期 望 的 ,这 是 对 应 于 密度 fz) 的 cdf。 
合成 
有 时 ,密度 f(z) 能 被 表述 成 来 自 混合 分 布 或 复合 分 布 的 形式 ,满足 : 


f(x) 一 | scz le)h(e)de 


于 和 是 , 源 目 f(z) 的 采样 能 通过 首先 从 密度 h(e) 获 得 采样 ,然后 从 条 件 密度 g(x|e) 
进行 x 的 采样 而 获得 。 
举 一 个 例子 ,考察 从 均值 为 4 而 方差 为 4(1 十 oa) 的 负 二 项 分 布 进行 采样 ,其 
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加 响 啦 呈 


中 ,4 与 a 都 是 给 定常 值 。 这 里 我 们 使 用 将 负 二 项 分 布 看 成 泊 松 -一 佩 玛 的 混合 的 事 
实 (参见 第 20 章 )。 首 先 , 从 均值 为 1 目 方 差 为 a 的 伽 玛 采样 e ,这 通过 指数 变换 来 
完成 。 其 次 ,从 均值 为 Xe 的 泊 松 分 布 进行 采样 ,e 是 由 前 面 一 节 给 定 的 。 

当 h(e) 表 示 在 C 个 点 处 具有 质量 p; 的 离散 分 布 ,; 一 1,…,C， 上 面积 分 步 又 
可 由 求 和 来 代替 。 因 而 ,有 : 


1， 
f(x) 一 >》 piglrle — €;) 
;二 1 


然后 ,为 了 从 f(x) 获得 S 个 采样 ,我 们 从 每 一 个 g(x|e 二 ej ) 中 采样 Sp; 个 观测 值 ， 
并 通过 混合 采样 “合成 ”所 需要 的 S 个 值 的 样本 。 

一 些 标准 生成 元 

附录 B 中 的 表 摘 述 了 几 种 标准 的 连续 情况 与 离散 情况 的 伪 随 机 数 生 成 。 它 们 
是 建立 在 下 述 假 设 基础 上 的 , 即 r,ri,r;,… 都 是 独立 均匀 [0, 11 中 随机 变量 R,R,， 
R;,… 的 值 。 注 意 到 ,可 能 存在 各 种 不 同方 法 来 生成 相应 的 随机 变量 ,我 们 仅仅 列 
出 这 些 方法 中 的 一 两 个 。 


12. 8. 3 多 元 分 布 


从 多 元 分 布 [11(multivariate distributions) 中 采样 ,通常 比 从 一 元 分 布 中 采样 
更 为 复杂 。 例 如 ,诸如 逆 变 换 与 变换 等 方法 不 再 可 应 用 。 对 于 一 些 多 元 分 布 来 说 ， 
使 用 混合 方法 或 者 合成 方法 ,因为 一 些 多 元 分 布 就 是 混合 分 布 。 

相当 一 般 的 方法 就 是 , 吉 布 斯 抽样 以 及 其 他 的 马尔 可 夫 链 蒙特 卡 罗 方 法 。 这 
些 内 容 将 推迟 到 13. 5 节 , 央 为 它们 广泛 地 应 用 于 贝 叶 斯 分 析 中 ,运用 复杂 多 元 分 
布 。 正 如 将 要 解释 的 那样 ,利用 吉 布 斯 抽样 器 所 做 的 采样 ,可 能 显示 出 呈现 某 种 相 
大 的 趋势 ,此 事实 将 减少 模拟 畜 的 有 效 性 。 

这 里 ,将 注意 力 限 制 在 多 元 正 态 分 布 上 。 于 是 ,采样 很 容易 通过 一 元 标准 正 态 
采样 的 变换 获得 。 特 别 地 ,假定 我 们 想 要 从 g 维 正 态 分 布 中 进行 采样 ,因而 x 一 
N(0, >)。 这 通过 建立 在 正定 具有 齐 列 斯 基 分 解 (Choleski decomposition ) : 

=LL 
基础 上 的 变换 完成 ,其 中 ,上 表示 下 三 角 和 矩阵 。 例 如 ,对 于 g 二 2 来 说 , 错 列 斯 基 分 


解 是 : 
Ol 21 li 0 bi b21 
县 | | 并 | U ,| 
从 而 ,得 到 三 个 方程 人 一 Oily llzl =o ,而且 L>, 十 43， O22 ,利用 它们 求解 A [人 
及 /22 0 给 定 地 维 向 量 g ,其 元 素 具 有 标准 正 态 分 布 ,容易 验证 ,年 EE ~ N (0, 1) 9 
E[LLessg 工 一 LL 一 马 。 这 个 方法 的 关键 是 , 正 态 的 线性 组 合 仍然 是 正 态 分 布 , 此 结 
果 对 于 非 正 态 分 布 不 成 立 。 


[C1] 又 称 为 多 变量 分 布 。 一 一 译 者 注 


2 基于 模拟 的 方法 
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12.9 文责 往 释 


普 雷 斯 等 人 (Press et al. ， 1993) 对 求 积 分 和 蒙特 卡 罗 积 分 提供 了 良好 的 起 
氮 , 并 给 出 进一步 研究 的 参考 文献 ,包括 本 章 其 他 地 方 提 及 的 某 些 文献 。 

有 关 基 于 模拟 估计 的 经 济 计量 学 文献 ,强调 多 项 式 probit 模型 。 不 过 ,这 类 方 
法 具有 较 广 泛 的 应 用 性 ,同时 在 其 他 一 些 模型 中 实施 起 来 更 容易 上 且 更 有 成 效 ,与 多 
项 式 probit 相 比 ,其 拟 合 时 很 少 受到 挑战 。 菜 尔 曼 和 曼 斯 基 (Lerman and Manski， 
1981) 使 用 模拟 频率 来 估计 选择 概率 ,并 发 现 要 求 众 多 采样 。 玫 克 法 登 (McFad- 
den，1989) 提 出 MSM, 同时 阅 述 它 的 一 致 性 与 渐 近 正 态 性 。 帕 克 斯 和 波 拉 德 
(Pakes and Pollard，1989) 已 经 提供 既 有 MSM 又 有 MSL 的 渐 近 理论 相当 一 般 性 
的 人 研究。 斯 特 恩 (Stern，1997) 的 相对 通俗 易 懂 的 综述 则 是 一 个 优秀 的 开始 点 。 吉 
利 诺 克 斯 和 蒙 福特 (Gouriéroux and Monfort，1996) 提 供 一 种 基本 方法 教科 书 式 
的 傅 究 。 在 后 面 特定 几 章 将 要 讨论 的 模型 背景 下 ,许多 其 他 参考 文献 更 适合 阅读 。 
特别 地 , 哈 吉 瓦斯 利 奥 和 和 鲁 德 (Hajivassiliou and Ruud，1994) 强 调包 括 多 项 式 
probit 的 截取 正 态 模型 ,而 特 雷 恩 (Train，2003) 曾 经 考察 一 系列 离散 选择 模型 , 包 
括 随 机 参数 logit。 


习 题 


12 -1 通过 蒙特 卡 罗 来 积分 法 估计 工 = |((z)g(z)dz, 已 知 和 j=N- 了 x 
tAZXi)B(Zi)/ plzi)。 其 中 ,x; 表示 从 重要 抽样 分 布 p(x) 得 到 的 采样 。 证 有 明 plim 7 一 志 
12-2 对 于 f(0) 一 - | S| 1 | 1+ 全 一 ] (0 四] 来 说 ， 考察 2 


维 积分 | ,7(6)dg。 被 积 函数 是 多 元 ! 密度 的 核 , 因此 , 正确 解答 是 正规 化 常 值 


的 遂 。 

(a) 把 这 个 积分 作为 蒙特 卡 罗 平 均 S71 fC99)/h(09) 加 以 计算 ,9 一 
h(0) ,其 中 ,重要 密度 h(0) 表 示 上 共有 相同 位 置 与 标 度 f(9) , 却 具有 不 同 自 由 度 参数 
的 多 元 t 密度 。 

(b) 当 你 变动 (9) 的 自由 度 时 ,探索 该 平均 的 稳定 性 。 通 过 变化 00) 的 位 置 
与 标 度 来 增 大 f(9) 与 h(9) 之 间 的 错误 匹配 ,并 进一步 加 以 探索 。 

12-3 对 于 12.5.3 节 的 MSM 佑 计量 ,假定 模拟 器 是 频数 模拟 器 。 

(a) 证 明 ,VsLji(go)] 一 (1 十 1/S)V,[Lm(Cg9u) ]。 

(b) 由 此 证 明 ,利用 频数 模拟 器 的 模拟 效果 会 使 矩 方法 竺 计量 的 方差 膨胀 。 

(c) 当 s 二 10 时 ,标准 误差 的 有 效 性 损失 会 是 多 大 呢 ? 


12-4 对 于 12.5.6 节 中 的 例子 ,考察 作为 2， | 一 玉民 (atw) |=0 解 
的 估计 量 a。 求 此 估计 量 及 其 方差 的 解析 表达 式 。 
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12-5 (a) 与 出 从 三 维 多 元 正 态 分 布 WL0, 3 中 采样 伪 随 机 样本 的 算法 ,其 
中 满足 Cjii 一 ,7 一 1 ,2,3,， 同时 协 方差 Oil 一 013 一 023 0. oo 来 样 1] 000 个 实现 的 样 
本 ,并 把 估计 的 均值 及 方差 与 数据 生成 过 程 的 那些 均值 及 方差 进行 比较 。 

(b) 用 有 具有 5 个 自由 度 的 学 生 : 分 布 代 替 (a) 中 的 三 元 正 态 分 布 ,重复 (a) 部 分 
内 容 。 

12- 6 利用 12. 8.2 节 给 出 的 道 变 换 方法 , 写 出 从 一 元 截 尾 正 态 密 度 
TNis, Loo0 中 进行 采样 的 计算 程序 。 这 里 La, 5 表示 上 截断 点 与 下 载 断 点 。 选 
取 1 一 1,o 二 4 并且 4a==3, 6 二 4。 

12-7 考察 标准 二 值 logit 回归 模型 (参见 14. 3 节 )。 

(a) 写 出 对 数 似 然 函 数 。 

(b) 当 截 距 是 从 具有 有 限 均 值 及 方差 的 适当 分 布 中 采样 得 来 的 ,引进 随机 截 
取 假 设 。 你 对 以 这 种 方式 引入 的 不 可 观测 异 质 性 会 做 出 什么 判断 ? 如 果 logit 模 
型 是 从 含有 极 冉 值 误差 的 随机 效用 模型 中 推导 出 来 的 ,那么 影响 解释 与 推导 的 随 
机 稚 距 会 怎样 呢 ? [参见 雷 维尔 特 和 特 雷 恩 (CRevelt and Train，1998) 。] 

(c) 对 随机 截 距 提 出 一 个 适宜 的 分 布 假设 ;重新 写 出 以 不 可 观测 异 质 性 为 条 
件 的 似 然 函数 。 然 后 , 写 出 积分 去 掉 的 不 可 观测 异 质 性 的 似 然 也 数 。 

(d) 一 步 一 步 摘 述 ,如 何 用 极 大 模拟 似 然 估 计 方 法 佰 计 这 个 模型 。 详 细 解 释 ， 
如 何 计 算 未知 参 数 的 方差 矩阵 ? 如 何 决 定 你 所 使 用 的 模拟 次 数 ? 

(e) 考察 模拟 算 方 法 作为 随机 参数 logit 的 MSL 程序 的 可 供 选 择 方法 。 写 出 
以 不 可 观测 异 质 性 项 为 条 件 的 矩 条 件 。 然 后 ,概述 此 模型 的 MSM 估计 程序 。 

12-8 有 些 计算 软 件 包 人 允许 你 既 可 直接 采样 名 松 伪 随 机 数 , 又 可 直接 采样 伽 
玛 伪 随 机 数 。 而 且 , 从 所 周知 , 负 二 项 分 布 被 推导 成 泊 松 随机 变量 与 伽 玛 随机 变量 
的 混合 (参见 20.4 节 )。 

(a) 与 出 利用 混合 方法 采样 负 二 项 分 布 变量 的 程序 。 

Cb) 用 你 的 方法 ,对 均值 为 0. 25 的 泊 松 分 布 变 量 采 样 10 000 次 的 样本 。 

(c) 从 均值 为 1 目 方 差 为 a 的 伽 玛 分 布 中 采样 相应 样本 ,用 wa 集合 生成 方差 为 
0. 312 5 的 负 二 项 随机 变量 。 
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13.1 引 论 


本 章 介 绍 贝 叶 斯 经 济 计量 学 的 内 容 。 上 自从 泽 尔 纳 (Zellner，1971 ) 与 利 默 
(Leamer，1978) 的 书 出 版 以 来 , 贝 时 斯 回归 分 析 以 怀 人 的 速度 得 到 不 断 发 展 。 常 
规 数据 分 析 应 用 也 得 到 了 巨大 扩展 ,这 在 很 大 程度 上 得 益 于 计算 机 硬件 和 软件 技 
术 方 面 单 命 性 的 进步 。 从 这 类 重要 发 展 来 看 ,单独 一 章 不 足以 合理 应 对 该 主题 的 
众多 方面 。 因 此 ,本 章 对 贝 叶 斯 经 济 计量 学 的 主要 思想 及 发 展 提供 一 个 大 略 的 路 
线 图 ,这 是 本 章 非 常 适宜 的 目标 。 尺 管 这 是 一 个 适宜 目标 ,但 仍 有 部 分 内 容 表 现 出 
相当 的 技术 性 。 

己 前 面 几 和 章 曾 经 前 述 的 似 然 或 频率 学 派 或 者 经 典 方法 不 同 , 贝 叶 斯 方法 需要 
对 有 关 未 知 参数 先 验 信念 的 概率 模型 进行 设 定 。 不 论 是 在 哲学 上 还 是 在 实践 上 ， 
研究 者 对 这 种 步 台 感到 不 尽 如 人 意 。 在 传统 上 看 ,这 会 涉及 贝 叶 斯 方法 是 主观 的 
而 不 是 客观 的 基础 。 可 以 证 明 , 在 大 样本 条 件 下 ,可 忽略 先 验 作用 ,并 设 定 相对 非 
信息 的 先 验 ,而 且 可 利用 对 先 验 敏感 性 的 研究 推断 方法 。 因 此 ,主观 性 变化 并 不 总 
是 像 许 多 表述 的 那样 严重 。 

在 应 用 微观 经 济 计 量 学 中 ,特别 是 , 当 研 究 缺 少 解析 形式 易于 处 理 的 似 然 函数 
复杂 模型 时 , 册 叶 斯 方法 将 起 到 次 在 而 巨大 的 作用 。 第 12 章 已 介绍 了 面 对 这 类 情 
形 的 基于 模拟 方法 ,这 些 方法 均 潜在 地 存在 问题 ,尤其 是 模拟 似 然 法 ,因为 它们 通 
党 要 求 利 用 充分 大 的 模拟 采样 次 数 求 了 哨 数 的 最 大 值 ,而 模拟 采样 次 数 会 随 样 本 量 
增 大 以 适当 速率 增加 。 即 使 拥有 当今 运算 能 力 超 强 的 计算 机 ,对 大 样本 与 高 维 数 
模型 进行 分 析 ,也 和 需要 求解 难以 克服 的 计算 量 。 与 之 相 比 , 贝 叶 斯 方法 并 不 要 求 最 
大 值 算法 。 贝 叶 斯 方法 灵活 ,足以 产生 不 算 极 好 的 估计 值 ,但 在 许多 情况 下 , 仍 有 
效 获 得 这 种 估计 值 。 实 际 上 ,没有 必要 促使 人 们 通过 改变 哲学 上 的 信仰 而 运用 贝 
叶 斯 方法 ,从 实用 主义 考量 ,这 类 方法 却 有 存在 的 必要 。 

以 上 评论 并 不 意味 着 , 贝 叶 斯 方法 没有 比较 深奥 的 理论 基础 和 论证 。 贝 叶 斯 
方法 具备 这 些 方面 。 尤 其 是 ,值得 提出 三 个 特性 。 第 一 , 贝 叶 斯 方法 能 获得 关注 参 
数 的 整个 后 验 分 布 , 使 用 户 潜在 地 根据 决策 理论 准则 去 决定 报告 分 布 的 矩 及 分 位 
数 。 人 们 不 要 求 各 自 独 立 的 均值 .中 位 数 . 分 位 数 等 一 些 估 计量 ,因为 后 验 分 布 都 


微观 经 济 计量 学 

包含 它们 。 第 二 ,以 数据 为 条 件 的 贝 叶 斯 分 析 会 得 出 准确 的 样本 结果 ,消除 了 对 有 
限 样本 进行 修正 或 调整 的 要 求 。 这 一 分 布 在 大 样本 中 接近 于 正 态 分 布 , 先 验 的 影 
啊 将 会 消失 。 第 三 , 贝 叶 斯 方法 提供 了 选择 模型 的 自然 方法 。 

13. 2 市 介绍 贝 叶 斯 分 析 的 基本 概念 与 构成 ,以 及 贝 时 斯 佑 计量 的 重要 性 质 。 
这 些 思 想 在 13. 3 节 以 相对 容易 处 理 的 线性 回归 模型 加 以 阐明 。 更 一 般 地 ,对 于 后 
验 分 布 来 说 ,不 存在 闭 形 式 解 。13. 4 节 阅 述 获得 后 验 和 抢 的 数值 估计 的 蒙特 卡 罗 积 
分 法 , 即 著 名 的 重要 抽样 。13. 5 节 详 述 马 尔 可 去 链 蒙 特 卡 罗 方 法 ,包括 著名 的 再 
布 斯 抽样 与 梅 特 罗 波 利 斯 一 黑 斯 廷 斯 算法 ,用 于 从 (不 易 处 理 ) 后 验 分 布 中 获得 采 
梓 。 这 些 方法 的 例子 在 13. 6 节 给 出 。 

此 外 ,数据 增 广 以 及 贝 叶 斯 模型 选择 的 专题 ,将 在 13.7 节 和 13. 8 节 阐 述 。 


13.2 ” 贝 叶 斯 方法 


在 贝 叶 斯 方法 中 ,关于 参数 9 值 的 不 确定 性 是 通过 引入 先 验 分 布 (prior distri- 
bution) 的 密度 x(0) 而 以 显 性 方式 得 以 建 模 的 ,这 样 命名 是 因为 它 没有 考虑 现 有 手 
头 数据 而 加 以 设 定 。 它 用 概率 语言 表述 关于 真实 未 知 参 数 的 主观 信念 。13. 2. 4 
节 将 详细 研究 先 验 的 设 定 。 举 一 个 例子 ,假定 0 表示 收入 弹性 ,并 根据 经 济 模型 或 
先前 研究 ,认为 9 以 概率 0.95 位 于 0.8 与 1.2 之 间 。 那 么 ,关于 6 的 先 验 信息 就 是 
6 一 ALL1，0. 1? ]。 

册 叶 斯 推断 的 其 他 构成 部 分 是 ,样本 联合 密度 或 似 然 函 数 f(y|0) ,在 单方 程 
情况 下 ,y 表示 NX1 维 向 量 。 为 了 记号 简单 起 见 ,本 节 自 始 至 终 不 用 关于 回归 元 
的 相依 性 。 外 生 回 归 元 将 在 13. 3 节 引 入 ,在 此 情况 下 ,f(y10) 变 成 f(y|X 关 ,98) ,由 
叶 斯 分 析 是 以 回归 元 为 条 件 的 。 还 要 注意 到 ,在 本 章 , fl(。) 通常 表示 所 有 观测 值 
的 联合 密度 ,而 不 是 第 i 个 观测 值 的 密度 。 

若 没 有 数据 可 利用 , 则 我 们 拥有 的 全 部 就 是 先 验 信 和 念 。 当 数据 是 可 观测 的 ,经 
典 方法 是 利用 极 大 似 然 原理 估计 未 知 参 数 68。 相反 , 贝 叶 斯 方法 是 将 样本 的 似 然 
与 先 验 结合 起 来 ,反映 任何 先 验 信息 都 应 该 得 到 探索 的 观点 ,尽管 先 验 信息 仅 揭示 
出 概率 分 布 形式 而 已 。 这 种 过 程 被 认为 是 ,给 定数 据 ( 似 然 ) 时 对 先 验 的 一 种 修正 。 
事实 上 ,我 们 在 将 似 然 与 先 验 结合 后 能 够 推导 6 的 分 布 。 所 得 到 的 分 布 称 为 后 验 
分 布 (posterior distribution) ,同时 它 反 映 出 研究 者 关于 9 的 后 验 信念 ,也 就 是 观测 
到 数据 之 后 的 信念 。 


13. 2. 1 贝 呈 斯 定理 


提供 后 验 分 布 的 基本 结果 是 贝 叶 斯 定理 (Baye's Theorem) ,有 时 还 称 为 贝 叶 斯 
逆 概 率 律 (inverse law of probability) , 即 : 


fey = Hore (13.1) 


其 中 ,f(y) 表 示 y 的 边缘 概率 分 布 , 正 式 地 ,定义 : 
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ur 


f(y = | Foy16)x(9)d8 (3. 2) 
RO) 
其 中 ,RC(O6) 表示 r(g9) 的 支 集 。 获 得 该 结果 源 于 注意 到 ,对 于 事件 A 与 B, 条 件 概 
率 为 : 
Prl AfNB | 
Pr| B | 
_Pr[BIA IPr A 
Pr| B | 
其 中 ,第 二 个 等 式 成 立 是 因为 PrLB1Aj]= 二 PrLANMmBJ]/Pr[LAj。 
由 于 式 (13. 1) 中 分 母 f(y) 不 含有 0, 所 以 将 p(91y) 更 简单 地 写成 正比 于 pdf 


Pr| A|B|= 


pOly)c L(yY|0)x(0) (13. 3) 


这 可 通过 省 略 无 关 索 要 的 常 值 , 得 到 简化 后 验 的 推导 及 表示 式 , 省 略 常 值 稍 后 能 重 
新 获得 ,正如 13. 2.2 节 将 阐明 的 那样 。 当 密度 函数 不 带 正规 化 常 值 而 被 写 出 时 ， 
它 称 为 密度 核 (density kernel) 。 

在 许多 情况 下 , 式 (13. 1) 或 式 (13. 3) 并 不 会 产生 后 验 密度 的 闭 形式 表 达 式 ， 
然而 ,不 需要 闭 形 式 表 达 式 ,而 后 面 几 节 将 阐述 用 于 获得 对 后 验 密度 的 基于 模拟 方 
法 的 民 好 数值 近似 。 这 些 方 法 允许 贝 叶 斯 分 析 用 于 几乎 任何 的 参数 微观 经 济 计 量 
学 应 用 。 

运用 关于 后 验 密度 的 特定 符号 是 普 裔 的 , 故 将 用 户 (91y) 代 蔡 f(8|y)。 同 理 ， 
最 初 的 联合 密度 f(y10) 表 示 L(y18) 的 似 然 聘 数 。 此 后 ,我 们 将 把 后 验 密度 
(posterior density) 与 成 : 


pb(g9ly)cclICy|9)r(CO) (13. 4) 


这 种 表达 式 是 贝 叶 斯 方法 的 核心 内 容 , 该 式 强 调 了 频率 学 派 与 贝 叶 斯 方法 之 间 的 
重要 差异 。 在 频率 学 派 方法 中 ,参数 的 真 值 是 常 值 ,但 将 参数 估计 值 处 理 成 随机 变 
有 量 。 与 之 相 比 ,在 贝 叶 斯 方法 中 ,参数 被 处 理 成 好 像 它 是 随机 的 。 


13.2.2 贝 叶 斯 定理 例子 


假定 y~AM [0, og | ,其 中 ‘0 己 知 ,但 纯 量 参数 06 未知 。 已 知 随机 样本 (y ys 
YN)sY 的 联合 密度 是 : 


N 
LCy|0) = [| (2m?) ?exp{— Cy; — 0)’/20) 
i 二 ] 
N 
== (2rz2 ) -Ya2zexp1 一 > (yi; — 0)2/2c2 } 
i=1 
Nj py 
oc exp| 2 DO) | 


其 中 ,7 一 N -12iyi 并且 我 们 使 用 了 > ICy 一 0 一定 (一 性 十 太一 0 一 2 (yy 一 
722 十 2 一 0 2。 乘法 项 不 包含 9, 这 被 并 入 比例 毅 值 之 中 而 被 省 略 。 频 率 学 派 
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方法 对 数 似 然 求 关于 9 的 极 大 值 ,得 出 MLE 0 一 了 
此 外 , 贝 叶 斯 方法 对 9 的 先 验 信息 进行 设 定 。 从 解析 形式 上 看 ,一 种 方便 的 方 
式 是 选择 正 态 先 验 ,满足 8 一 WLw, rz, 其 中 对 先 验 均值 w 与 先 验方 差 +? 的 值 进行 
设 定 。 大 的 r 值 表明 , 比 其 较 小 值 具 有 更 大 的 先 验 不 确定 性 。 于 是 , 先 验 密 度 是 : 
xr(0) 一 (2rr2) exp{— (0—~p)’/2r’)} 
ccexp( 一 (0 一 A) /2r) 


其 中 ,(2rr ) “不 含有 0, 它 被 并 人 比例 因子 之 中 。 利 用 式 (13. 4) ,获得 后 验 密度 


pO|y) 一 工 Gy10)r(O) -co 一 6 一 cc (13.5) 
| LY DAO ad 


分 母 确保 了 后 验 是 正常 的 (也 就 是 说 ,对 它 积分 为 1 )。 就 某 些 目的 而 言 ,可 忽略 分 
母 , 在 此 情况 下 ,以 如 (gly) CLCy10)x(0) 进行 研究 。 这 时 ,对 分 子 做 如 下 扩展 : 


~ (Cy;— 0)? (0 一 Ap) 
LCy|0)r(O) = (2mm2) Mexp|— >》 rr 273 | 
;一 1 T 
N 
)* 
_ (2 元 ) 一 CNH1)72 (7) Mle exp(— Ba 2 Cy — 一 | 


因为 : 
~N N 
> (一 92 一 > ym +NGy— 0 
;一 1 i 一 1 


并 注意 到 , 式 (13. 5) 的 积分 常 值 以 及 与 0 独立 的 其 他 一 些 乘 法 常 值 都 被 并 人 比例 
前 值 之 中 , 故 有 : 








p(0|y) cc exp — 0D) }exp| 一 六 | (13. 6) 
le] 
=em| [ee] (13.7) 
最 后 一 行为 WLm ，r1] 分 布 的 核 ,其 中 : 
AI 一 ri1CNy/a2 十 py/r2 ) (13. 8) 


rz 一 (NApa2: 十 17/r2) 一:! 
式 (13.7) 最 后 一 行 可 通过 完成 平方 而 获得 ,和 看 利用 任意 纯 量 z,y,aiyazycl 以 及 
的 结果 ,有 : 


2 
cl1(z 一 QI 六 十 ca(z 一 0 ) 一 (ci 十 cy ) (> 一 (32) ) te — a») 


其 中 ,z 二 9， di Q2 一 人 ， ci 一 1/r ,人 而 cy 一 1/(CN lo 二 Tr’), 不 含 8 的 项 被 省 略 。 
总 之 ,有 下 述 内 容 : 
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数据 : y|19 一 ML0, cj ,cc 已 知 。 

先 验 : 0 一 WLiy zj， ps 设 定 。 

后 验 : bly ~ MN| 》 r1]， Hl? r1 由 式 (13. 8) 给 出 。 

后 验 均值 (posterior mean) /4 是 含有 反映 似 然 精度 oo /N 及 先 验 r 的 先 验 均 
值 : 与 样本 均值 了 的 加 权 之 和 。 贝 叶 斯 的 通常 做 法 是 ,利用 精度 参数 (precision 
parameter) 概括 可 变性 ,而 精度 参数 被 定义 为 方差 的 倒数 。 这 里 的 后 验 精 度 (pos- 
terior precision) rz “表示 广 的 样本 精度 N/ao’ 与 先 验 精度 (prior precision) 1/r 之 
和 ,因此 ,精度 可 通过 混合 样本 与 先 验 信 息 而 增 大 。 

如 果 先 验 信息 是 不 精确 的 ,因而 1/r: 很 小 ,分 配给 先 验 均值 的 权重 相对 于 样本 
信息 来 说 也 就 很 小 ,从 而 先 验 在 生成 后 验 时 起 很 小 作用 。 类 似 地 , 当 样 本 量 增 大 
时 ,样本 信息 同样 占有 优势 ,进而 N/a? 相 对 于 1/t* 来 说 就 大 。 后 验 分 布 趋 于 人 们 


熟悉 的 渐 近 正 态 , 只 是 贝 叶 斯 结果 是 0 ~N[y,o?/N] ,而 不 是 yy~N[L9,o?:/N]。 
举 一 个 具体 例子 ,假定 c2z 王 100, 先 验 令 pr=5 且 rz: 一 3, 而 且 容 量 N 王 50 的 样 
本 具有 样本 均值 y* 王 10。 于 是 , 似 然 是 WL10, 2], 先 验 是 WL5,，3], 由 式 (13. 7) 与 
式 (13. 8) 知 ,后 验 为 Wt8, 1.2]。 这 些 密度 已 画 在 图 13. 1 中 。 后 验 均值 位 于 先 验 
均值 与 样本 均值 之 间 , 而 后 验 的 方差 既 比 先 验 方差 小 ,又 比 似 然 方 差 小 。 


贝 叶 斯 分 析 : 似 然 、 先 验 和 后 验 





计算 点 


13.1 正 态 密度 的 均值 参数 的 贝 叶 斯 分 析 : 正 态 似 然 ( 右 边 ) 、 正 态 先 验 密 度 ( 左 边 )， 
以 及 所 得 到 的 后 验 密度 (中 间 )。 


13.2.3 贝 寻 斯 方法 和 非 贝 叶 斯 方法 比 袭 


在 频率 学 派 方法 与 贝 叶 斯 方法 之 间 , 找 出 其 异同 点 是 有 益 的 。 在 参数 频率 学 
派 方法 的 系统 阐述 中 , 似 然 函 数 是 统计 推断 的 一 个 重要 基石 。 在 合适 正则 条 件 下 ， 
MLE 是 一 致 的 且 渐 近 正 态 的 。 估 计量 的 抽样 理论 提供 了 有 关 估计 数量 或 者 其 
函数 或 者 条 件 预 测 的 概率 表述 的 基础 。 关 于 参数 的 先 验 则 被 并 人 约束 的 ML 人 
计 中 。 
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在 贝 叶 斯 分 析 中 ,数据 生成 过 程 及 数据 与 参数 的 先 验 分 布 结合 在 一 起 , 如 表 
13.1 所 示 。 对 这 种 先 验 分 布 的 设 定 ,将 在 13. 2. 4 节 加 以 详细 讨论 。 在 对 现 有 数 
据 进 行 分 析 ,并 建立 在 "已 接收 信息 ?基础 之 前 , 先 验 被 佣 入 到 可 能 设 定 的 信息 里 。 
利用 贝 叶 斯 定理 ,将 先 验 信息 与 数据 结合 起 来 。 


表 13.1 贝 时 斯 分 析 : 基 本 成 分 


成 分 公 式 
抽样 模型 出 自 f(y10) 的 iid (Gy,，…，yn) 
联合 密度 / 似 然 roy|9，Loyl9 oocg 
先 验 分 布 (0),0E€® 


= f(y| gx(e)/ 7 (y| 0)x(0) dd0 


后 验 密 上 度 p‘0|y): cc fly| OA) 
cc L(y|0)x(0) 
参数 估计 
概率 表述 
df 一 » 后 四 
后 验 p 后 验 推断 预测 
模型 比较 


运用 这 种 方式 得 出 了 参数 8 的 后 验 分 布 ,可 将 其 考虑 成 变换 的 似 然 函数 。 否 
则 ,给 定数 据 , 后 验 分 布 反 映 出 我 们 的 “ 先 验 修正 ”Crevised prior) 。 当 样本 很 小 , 而 
月 或 许 相 对 没有 什么 信息 价值 ,后 验 分 布 看 起 来 好 像 是 一 个 先 验 分 布 ,但 当 样 本 很 
大 时 ,后 验 分 布 将 反映 出 数据 的 特性 。 


13.2.4 先 验 设 定 


贝 叶 斯 分 析 需 要 对 dgp f(y19) 与 先 验 x(8) 进行 设 定 。 通 常 , dgp 被 设 定 成 与 
完全 人 参数 基于 似 然 分 析 中 所 使 用 的 相同 。 对 于 二 值 结 果 来 说 , 设 定 jogit 或 probit 
模型 ,对 于 计数 数据 来 说 , 设 定 泪 松 模型 或 负 二 项 式 模 式 等 。 

与 经 典 分 析 相 比 , 由 员 叶 斯 分 析 所 引起 的 原则 性 挑战 是 ,需要 额外 地 对 先 验 分 
布 进行 设 定 。 其 结果 会 随 先 验 选 择 不 同 而 变化 ,因为 各 种 不 同 先 验 会 导致 不 同 的 
后 验 分 布 , 除 非 样 本 量 足 够 大 到 使 得 样本 信息 占有 优势 。 

一 种 方法 是 选取 先 验 分 布 , 以 使 它 对 后 验 分 布 具有 很 小 的 影响 ,因此 ,其 结果 
本 质 上 是 建立 在 样本 数据 的 基础 之 上 。 一 种 可 供 选 择 的 方法 是 , 当 保 证 具有 很 强 
的 先 验 信息 可 利用 时 ,就 是 去 设 定 反映 这 种 信息 的 先 验 。 上 述 两 种 方法 ,尤其 是 后 
者 ,在 历史 上 被 后 验 分 布 处 理性 问题 所 束缚 ,可 是 ,这 一 点 因 当 今 目 前 计算 进步 而 
不 在 考虑 范围 内 。 一 种 流行 的 中 间 方 法 是 运用 层次 先 验 (hierarchical prior) , 其 关 
于 参数 不 确定 性 可 利用 概率 函数 表述 ,而 它们 本 身 涉及 其 他 参数 也 不 能 断定 。 

非 信 息 先 验 

非 信息 先 验 Cnoninformative prior) 是 指 那 种 对 所 得 到 的 后 验 分 布 具 有 很 小 影 
响 的 先 验 。 
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本 


获得 非 信 息 先 验 的 一 种 明显 方法 是 ,使 用 一 致 先 验 (uniform prior) ,对 于 所 有 
0 满足 x(0) 二 c, 其 中 ,c 汪 0 表示 常 值 ,因为 这 会 对 9 的 所 有 可 能 值 设置 相等 权 数 ，。 
一 致 先 验 的 一 个 缺点 是 , 知 在 参数 8 为 有 界 的 背景 下 使 用 ,此 先 验 就 是 一 种 非 


正常 密度 (improper density) ,因为 必然 有 |x(9)d9. 二 oo。 于 是 ,得 到 的 后 验 分 布 也 


可 能 是 非 正常 的 ,尽管 在 几 个 重要 例子 中 ,后 验 分 布 仍然 是 正常 的 。 

一 致 先 验 的 男 一 个 缺点 是 , 它 对 重 参 数 化 不 是 不 变 的 。 例 如 ,对 于 纯 量 参数 
0 >0 来 说 ,一 种 可 供 选 择 的 密度 y 的 明显 参数 化 是 依照 参数 y= 二 ln 9, 进而 一 2 二 
y 二 co。 当 9 服从 一 致 先 验 ,x (90) = 二 cc,y 的 对 应 先 验 x* (yY) 就 不 是 一 致 的 ,因为 
XT (7) 二 x(0)|1d9/dy| 二 ce*。 尽 管 对 一 个 参数 化 来 说 好 像 没 有 什么 信息 ,但 对 男 一 
个 参数 化 而 言 ,该 先 验 却 是 有 信息 价值 的 。 

一 致 先 验 能 通过 设 定 具 有 非常 大 方差 的 止 常 先 验 而 得 以 仿效 。 例 如 ,假定 纯 
量 0 服 从 W Lo rz 先 验 , 其 中 ,是 非常 大 的 。 从 而 ,对 于 可 能 通过 数据 支撑 的 0 
值 来 说 , 先 验 x(0) 二 1/(2xr?), 即 一 个 常 值 ,因为 expL 一 (0 一 Ap)V/2r 一 1。 重 要 的 
是 注意 到 ,这 种 明显 方法 与 一 致 先 验 具有 相同 的 缺陷 , 称 为 非 确定 的 (vague) 或 散 
开 的 (diffuse) 或 平坦 的 先 验 (flat prior) 。 对 重 参 数 化 而 言 ,该 方法 不 是 不 变 的 。 

不 过 ,一 种 广 沁 使 用 的 非 信 息 先 验 是 杰 弗 里 斯 先 验 (Jeffreys prior): 


r(g)cc i7(9)| (13.9) 


其 中 ,对 于 向 量 9 来 说 , |Z (0) | 表示 信息 和 矩 阵 了 (0) 二 一 EL9*L /9998 ] 的 行列 式 ， 
满足 C 王 InL(Cy|6)。 杰 弗 里 斯 先 验 是 以 先驱 贝 叶 斯 。 哈 罗 德 。 杰 弗 里 斯 (Bayes- 
ian Harold Jeffreys) 命 名 的 , 它 对 重 参 数 化 或 模型 参数 的 变换 来 说 ,具有 不 变性 
(invariance) ,因此 ,不 管 选 取 的 特殊 参数 化 如 何 , 都 将 得 出 一 样 的 先 验 信息 。 

为 检 证 杰 弗 里 斯 规则 ,为 了 简单 起 见 , 我 们 考察 纯 量 参数 情况 。 已 知 变 换 7 和 = 
h0), 9£ /97=9£ /90X90/97y, 并 有 : 














T6242) oar 90 
9y* 90° \97y DO ay 


对 样本 密度 取 期 望 , 同 时 注意 到 ,ElLaC /901 二 0, 由 似 然 得 分 性 质 可 得 . 
IT (y=7(0) (区 ) 
由 此 可 得 : 








TWD R=|T0 | 了 
通常 ,0 的 先 验 x(0) 药 含 ,关于 YY 的 先 验 为 x (7Y) 二 x()X|d0/dy|。 帮 专门 研究 先 验 
(13. 9) , 则 得 出 x* (7Y) cc | 荆 (0) 1 1d9/ay| ,但 这 正 是 人 们 所 期 望 的 | (7)| 一。 
举 一 个 例子 ,假定 y 一 NlLxu, oj], 并 考察 三 种 情况 。 第 一 种 情况 , 当 y 是 未 知 参 
数 且 ao: 是 已 知 的 ,关于 的 信息 测度 是 工 (j) 二 N/a? ,而 杰 弗 里 斯 先 验 |ZTQY)1 ccc 
为 一 个 常 值 ,因为 ,这 里 o? 是 已 知 的 。 注 意 ,该 先 验 是 非 正 常 先 验 。 第 二 种 情况 , 当 
2 是 未 知 的 且 是 已 知 的 ,关于 o ?的 信息 测度 是 工 (o?)= 二 N/(201), 而 杰 弗 里 斯 先 
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验 为 | 了 (go )1 ?cco 。 第 三 种 情况 , 当 是 未 知 的 ,a :也 是 未 知 的 ,信息 矩阵 
Tc ) | 二 CN/o?)(N/20') 一 NN?/205。 因 此 , 杰 弗 里 斯 规则 蕴含 联合 先 验 x (y， 
0 ) cco“。 注 意 ,这 不 同 于 将 杰 弗 里 斯 规则 应 用 到 jy 与 oa? 的 各 自 先 验 上 所 得 到 的 
结果 ,因为 x(y) ccc 与 x(o?)cco ,得 出 xO)xlo:)oco 了 7。 

当 没 有 明显 的 备 选 先 验 可 利用 时 , 杰 弗 里 斯 规则 能 作为 生成 先 验 的 一 种 方法 。 
可 是 ,文献 似乎 没有 解决 规则 是 否 产 生 非 信息 先 验 的 问题 ,而 且 如 果 有 的 话 , 又 有 
什么 意义 ? 更 进一步 ,由 前 面 的 例子 , 杰 弗 里 斯 先 验 可 能 是 非 正 常 的 ,这 一 点 很 明 
显 , 从 而 得 出 非 正常 后 验 。 

共 斩 先 验 

当 设 定 正 常 先 验 时 ,或 是 作为 信息 先 验 或 是 作为 散 开 先 验 , 已 知 数据 的 设 定 样 
本 密度 ,选择 会 产生 关于 后 验 的 容易 处 理 的 “良好 ”解析 表达 式 , 诸 如 式 (13. 7) 的 函 
数 形式 是 方便 的 。 帮 样本 与 先 验 密 度 出 自 自然 共 斩 对 Cnatural conjugate pair), 即 
定义 成 具有 下 述 性 质 : 样 本 密度 与 先 验 分 布 及 后 验 分 布 全 部 处 于 相同 类 型 的 密度 
中 。 那 么 ,这 类 容易 处 理 的 结果 大 多 经 常会 出 现 ,于 是 , 先 验 被 称 为 自然 共 罗 先 验 
(natural conjugate prior) 。13. 2. 2 节 已 给 出 一 个 例子 ,对 于 正 态 分 布 数据 来 说 ,其 
均值 的 正 态 先 验 导致 后 验 分 布 也 是 正 态 的 。 

指数 族 基 本 上 是 具有 自然 共 罗 对 的 唯一 密度 类 型 。 指 数 族 的 一 个 参数 成 员 具 
有 下 述 密度 ;单个 观测 值 表述 成 ， 


f(y10)=exp{a(0)+ob(y) te u(y)} (13. 10) 
ocexp{la(0) tc(O u(y))} 


其 中 ,各 不 相同 的 函数 al*).cC') 以 及 ul，) 会 产生 族 中 不 同 密 度 , 而 6(*) 表 示 正 规 
化 常 值 。 例 如 , 设 c( 外 二 py/a? a( 四 二 一 J 民 /20 以 及 u(y) 二 y, 则 得 到 AN[n,o?] 分 
布 的 核 (关于 o 是 已 知 )。 注 意 到 , 设 u(y) 一 y 会 产生 线性 指数 族 ,5. 7. 3 节 曾 经 以 
某 种 详细 方式 痢 述 过 。 更 一 般 地 讲 , 若 8 表示 一 个 向 量 , 则 c(9)u(y) 可 用 ce(0)'u(y) 
代替 ,其 中 ,ul(*) 通 常 具 有 与 6 一 样 的 维 数 。 

对 于 容量 为 N 的 随机 样本 来 说 ,由 指数 族 , 得 出 样本 密度 


L(y|0) ccexp{ 和 Na 人 9) 十 cCO)LCY)) (13.11) 
其 中 st(Y) = Zu yi)., 考察 下 述 天 于 0 的 先 验 : 
xr(0|B,a) OC exp{Ba(b) Tac(0)} (13. 12) 


其 中 ,ea 与 8 均 是 先 验 的 设 定 参数 ,而 函数 w(.) 与 c(*) 均 与 式 (13. 10) 的 那些 一 样 。 
当 将 a 看 成 固定 的 ,这 个 密度 就 是 0 的 指数 族 密度 。 应 用 贝 叶 斯 定理 ,经 过 简化 
得 到 : 


poly) Loy|0)x(0|B,a) (13. 13) 
ccexp((8 十 N)a(9) 十 (ae 十 ty))c(0O) ) 


容 多 验证 ,这 与 式 (13. 12) 的 最 初 先 验 具有 一 样 的 核 。 一 旦 将 后 验 与 样本 密度 相 


fF 贝 叶 斯 方法 


MM 


表 13. 2 阐述 某 些 标 准 的 共 轿 族 ,其 有 关 的 密度 已 在 附录 B 中 提供 。 伽 玛 包 括 
指数 与 卡 方 作为 其 特殊 情况 。 同 理 , 负 二 项 式 的 一 致 的 以 及 帕 累 托 的 似 然 都 具有 
共 思 先 验 密度 。 


表 13. 2 共 固 族 : 重 要 例子 


分 布 样本 密度 共 罗 先 验 密度 
正 态 分 布 MLp, og? ] 0 一 人 Le rt 
正 态 分 布 NL, 1/0° | 0 ~ GLa, B 
二 项 分 布 BLN, 9| 0 ~ Beta[a, BJ 
泊 松 分 布 PL0| 0 ~ GLa, BJ 
伽 玛 分 布 GLv, 0 0 一 9La,， B| 
多 项 式 分 布 LNELO *…, O04 | 01, ,0 ~ Dirichlet[ a , **, as | 


共 辆 先 验 的 一 个 引 人 注 目 之 处 是 ,得 到 的 计算 结果 在 计算 形式 与 解析 形式 上 
均 具 有 简单 性 。 不 过 ,运用 共 斩 先 验 是 受到 限制 的 ,而 且 对 典型 研究 者 来 说 , 当 利 
用 的 资源 受到 相当 限制 时 ,对 是 否 正 确 地 利用 它 做 出 判断 ,现在 比 过 去 更 缺少 强 有 
力 的 依据 。 

拥有 与 先 验 同一 类 型 的 后 验 的 另 一 个 优点 是 ,后 验 很 容易 用 先 验 来 代替 ,并 作 
为 后 面 分 析 的 一 个 (基于 数据 ) 新 先 验 。 若 将 先 验 解释 成 “已 接受 信息 ”, 则 人 们 从 
饶 究 中 得 到 的 后 验 作为 下 面 探索 的 先 验 。 

分 层 先 验 

当先 验 的 参数 自身 被 建 模 成 一 个 分 布 时 ,就 产生 分 层 先 验 (hierarchical priors ) 。 
出 现在 这 类 “关于 先 验 的 先 验 ” 当 中 的 参数 ,被 称 为 超 参 数 (hyperparameters)。 

如 同 13. 2. 1 节 一 样 ,数据 具有 联合 密度 L(y| 8) ,但 现在 8 的 先 验 依赖 于 参数 
7 ,比如 说 ,> 是 随机 的 而 不 是 固定 的 。 因 而 ,6 的 先 验 是 x(6|r), 其 中 ,参数 同 
样 具 有 一 个 先 验 (了 )。 联 合 先 验 是 x(0,T) 二 x(8|T)x(7T), 由 贝 叶 斯 规则 可 得 ， 
其 联合 后 验 : 


pl0,T|y) L(yYIO AO | 7) rx) 


关注 内 容 通 常 是 9 的 边缘 后 验 , 这 通过 联合 后 验 对 了 进行 积分 而 得 到 。 先 验 x(C7) 
的 设 定 参数 称 为 超 参 数 。 作 为 一 种 可 供 选 择 的 方式 ,这 种 参数 同样 可 以 是 已 知 先 
验 ,在 此 情况 下 ,引入 为 一 种 分 层 ,得 出 联合 先 验 x(0|T7)x(7|18)x(8) 和 等。 最 近 , 风 
叶 斯 分 析 计 算 方 法 进步 ,特别 是 吉 布 斯 抽样 寓 , 都 很 好 地 适用 于 分 层 先 验 , 因 为 这 
些 方法 有 递 推 结构 。 

可 将 分 层 先 验 看 成 是 ,在 典型 设置 背景 下 随机 系数 模型 的 贝 叶 斯 类 似 形 式 。 
例如 ,对 于 iid 计数 数据 来 说 ,假定 y; ~ P19, 其中, 沾 松 参数 现在 是 随机 的 。 关 
于 4 的 一 个 方便 分 布 是 共 轧 伯 玛 分 布 ,因此 9;~ 一 gLa, 8 ]。 一 种 典型 的 方法 是 , 通 
过 极 大 似 然 法 佑 计 a 与 8。 非 分 层 贝 叶 斯 模型 对 a 与 8 加 以 设 定 ,并 获得 关于 0; 的 
后 验 。 分 层 贝 叶 斯 模型 则 对 a 与 8 设 定 其 先 验 ,例如 作为 共 轿 形式 的 伽 玛 ,并 在 求 
关于 4b 的 边际 后 验 之 前 ,首先 要 求 关 于 和 .wa 和 8B 的 联合 后 验 。 
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在 分 层 模型 (hierarchical models) 的 背景 下 ,自然 出 现 分 层 先 验 , 这 类 模型 统称 
为 多 层 模 型 (multilevel models) 。 这 种 模型 广泛 用 于 经 典 设置 背景 下 利用 特定 目 
的 软件 情况 。 在 贝 叶 斯 设置 背景 下 , 林 德 利和 史密斯 (Lindley and Smith、1972) 对 
分 层 回归 模型 分 析 做 出 了 早期 的 研究 工作 。 只 要 被 分 析 的 数据 自然 归 人 层 、 组 或 
小 层 (layers) 时 ,分 层 模型 自然 有 吸引 力 , 而 且 人 们 希望 看 到 ,关注 关系 在 分 组 参数 
(groupwise parameter) 上 的 变异 。 例 如 ,测验 分 数 的 观测 值 可 来 自 特 定年 级 与 学 校 
的 学 生 。 对 测验 分 数 的 建 模 能 包含 随 不 同 个 体 变化 而 定义 的 个 体 特征 、 随 不 同年 
级 而 变化 的 班级 特征 ,以 及 仅 随 不 同学 校 而 变化 的 学 校 特征 。 由 于 这 类 数据 将 会 
涉及 观测 值 的 集群 ,所 以 这 个 专题 也 将 在 第 24 章 讨论 。 这 类 模型 与 面板 数据 的 随 
机 效应 具有 密切 关系 。 

党 一 个 例子 ,假定 数据 可 归 人 了 个 组 ,同时 y 的 总 体 均值 会 随 不 同 组 而 变化 。 
对 于 第 7 了 组 的 个 体 i 来 说 ,假定 yi 一 NL9; ,oj, 其 中 ,为 了 简单 起 见 , 假 定 o 是 已 
知 的 。 从 而 ,第 j 个 组 中 的 样本 均值 y; ~~N1L9;,o?/N;], 其 中 ,N; 表示 组 的 个 体 数 
目 ,并 假设 独立 性 成 立 。 例 如 ,分 层 模型 设 定 均值 9 具有 先 验 9; 一 [x,t?], 其 
中 ,对 于 较 高 层 先 验 的 参数 jy 与 r 来 说 ,要 设 定 另 外 的 先 验 。 

敏感 性 分 析 

在 频率 学 派 分 析 中 ,人 们 会 考虑 用 于 系统 建立 估计 模型 的 一 系列 准确 的 先 验 
约束 。 例 如 ,在 一 个 或 多 个 约束 集合 下 ,对 模型 进行 估计 ,而 其 结果 与 来 自 对 先 验 
假设 实施 佑 计 的 敏感 性 思想 相 比 较 。 

同样 的 逻辑 及 方法 ,可 运用 于 贝 叶 斯 分 析 。 人 们 不 必 使 先 验 严 格 正确 ,而 人 们 
能 实施 敏感 性 分 析 , 人 研究 后 验 是 如 何 随 先 验 的 不 同 选取 而 变化 的 。 类 似 地 ,人 们 能 
改变 关于 数据 生成 过 程 的 假设 ,并 分 析 后 验 信息 会 怎样 响应 变化 。 


13.2.5 与 后 验 有 关 的 密度 和 测量 


由 叶 斯 分 析 建 立 在 后 验 分 布 的 基础 上 。 为 了 方便 起 见 ,中 叶 斯 回归 结果 通常 
只 报告 概括 性 测量 ,诸如 后 验算 .分 位 数 或 6 分 量 的 边缘 分 布 。 然 而 ,后 验 分 布 也 
可 用 于 预测 与 概率 表述 ,对 此 本 节 将 详细 净 述 ; 它 还 可 用 于 模型 比较 ,这 将 在 13. 8 
节 加 以 阐述 。 

边缘 后 验 

通常 ,9 是 多 维 数 的 ,用 0 一 (0 ,…,0,) 表 示 , 人们 关注 的 内 容 可 以 是 6 的 个 体 
成 分 后 验 分 布 。 第 上 个 参数 0 的 边缘 后 验 密 度 (marginal posterior density) ,通过 
对 9 的 联合 后 验 中 剩余 (g 一 1) 个 全 部 分 量 进 行 积 分 而 获得 。 正 式 地 讲 , 这 表示 成 
p(9.1y) ,并 通过 计算 (gq 一 1) 重 积分 得 到 ， 


p(t | y) -一 | mb s"”" » 0p y) do “dO 1d01 “do, (13. 14) 
= |p(0ly de 


其 中 ,第 二 行 中 更 简洁 的 记号 包含 9_;,0-_; 表 示 98 去 掉 之 后 的 所 有 元 素 。 通 常 ， 
边缘 后 验 密度 是 非 对 称 的 且 不 必 是 单 峰 的 。 特 别 地 , 当 边 缘 后 验 密 度 远 远 违 背 对 
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OM 


称 单 蜂 分 布 时 , 画 出 后 验 图 形 是 有 用 的 。 

后 验算 

经 典 回归 输出 会 报告 参数 估计 值 与 标准 误差 。 对 于 贝 叶 斯 回归 来 说 ,人 们 会 
类 似 报 告 每 个 参数 的 边缘 后 验 密度 的 均值 或 中 位 数 .标准 差 。 

点 估计 

在 经 典 分 析 里 ,存在 未 知 真实 参数 值 6。, 使 数据 生成 过 程 是 fy|16。) ,并 求 其 
忆 估 计 , 它 是 go 的 一 个 良好 估计 。 与 之 相 比 , 贝 叶 斯 分 析 关 注 内 容 是 8 的 整个 分 
布 , 它 既 有 几 9, 决定 ,又 由 关于 bo 的 先 验 信念 决定 。 

因此 ,页 叶 斯 分 析 很 少 强 调 点 估计 。 不 过 ,为 了 方便 起 见 , 后 验 均 值 与 后 验 中 
位 数 被 广泛 报告 出 来 作为 点 估计 。 通 过 设 定 损失 函数 ,获得 参数 的 最 优点 估计 ;人 参 
见 13. 2.7 节 。 

后 验 区 间 

一 旦 获得 后 验 分 布 , 它 可 用 于 做 出 类 似 于 频率 学 派 分 析 的 概率 表述 。 特 别 地 ， 
我 们 考察 员 叶 斯 置信 区 间 与 区 域 。 

对 于 第 有 & 个 参数 来 说 ,100(1 一 c) % 后 验 密度 区 间 和 尺 (6 ) (posterior density in- 
terval) 是 4 以 后 验 概 率 a 落 人 的 任何 一 个 区 间 ,或 正式 地 : 


] 一 zx 一 Prl1b € RG) Ny] 一 | ,PO 1 yd (13. 15) 


对 应 于 这 个 概率 ,存在 许多 区 域 。 一 个 最 简单 的 后 验 区 间 是 ,位 于 a/2 与 (1 一 a/2) 
分 位 数 之 间 的 区 间 , 比 如 在 2. 5 分 位 数 与 97. 5 分 位 数 之 间 。 一 个 更 复杂 的 情况 是 
最 高 后 验 密 度 区 间 [highest posterior density (HPD) interva 申 , 它 要 满足 式 (13. 15) 
以 及 下 述 另外 条 件 : 尺 (人 中 没有 任何 一 点 比 其 区 域外 任何 点 的 概率 密度 小 。 当 后 
验 是 多 峰 时 ,这 一 区 间 不 必 是 连接 的 ,同时 它 不 同 于 较 简 单 的 区 间 ,除非 后 验 是 对 
称 的 且 单 峰 的 。 

可 以 将 这 些 区 间 推 广 到 区 域 上 。 一 个 100(1 一 a)% 的 最 高 后 验 密度 区 域 
R(0) ,使 得 : 


1 一 wx 一 PrfgEe Ry = | 28l7)dg (13. 16) 


见 叶 斯 方法 的 引 人 注 目 之 处 是 ,与 频率 学 派 分 析 置 信 区 间 相 比 , 后 验 区 间 解 释 
起 来 更 加 简单 。 当 6 的 95% 后 验 区 间 是 (1,4) 时 , 则 & 以 后 验 概率 0. 95 位 于 1 
与 4 之 间 。 与 之 相 比 ,对 于 频率 学 家 来 说 ,9 的 95% 置 信 区 间 等 于 (1，4) ,我们 只 
能 说 ,如 果 可 能 的 话 , 以 许多 各 种 不 同样 本 进行 重复 分 析 , 会 得 到 一 些 不 一 样 的 置 
信 区 间 ,那么 这 些 置信 区 间 的 95;) 将 包括 入 的 真实 值 。 

假设 检验 

在 贝 叶 斯 背景 下 ,假设 检验 很 少 受 到 注意 。 如 同 在 对 点 估计 的 讨论 中 所 提 太 
的 ,人 们 关注 的 内 容 不 是 去 确定 真实 参数 值 9, 。 相 反 ,关注 的 内 容 是 ,已 知 数 据 与 
先 验 时 8 可 能 取 值 的 范围 分 布 。 对 于 模型 比较 来 说 ,参见 13. 8 节 。 

条 件 后 验 密度 

已 知 0 时, 的 条 件 后 验 密 度 (conditional posterior density) 由 联合 后 验 密 度 
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与 边缘 后 验 密度 来 获得 , 即 : 


p(0:|0;, 9, EQ, = (13. 17) 

特别 关注 内 容 及 具有 重要 意义 的 是 ,g 个 条 件 分 布 集合 p (610 ;),&k 二 1,…,g， 这 
也 是 众所周知 的 完全 条 件 分 布 (full conditional distributions)。 对 于 后 面 几 节 将 并 
述 的 联合 后 验 分 布 来 说 ,这 些 在 现代 计算 方法 上 起 着 重要 作用 。 

式 (13. 15) 与 式 (13. 17) 所 定义 的 边缘 后 验 与 条 件 后 验 , 可 从 个 体 参 数 推广 到 
分 块 参 数 上 (blocks of parameters) 。 

边缘 似 然 

边 绿 似 然 (marginal likelihood) 的 边缘 概率 是 贝 叶 斯 法 则 的 分 母 , 并 被 定义 成 


f(y) = |Ley OO dd (13. 18) 


它 是 似 然 的 期 望 值 , 即 ELLC(y|0) ,这 里 的 期 望 是 关于 先 验 密度 的 。 边 缘 似 然 构 成 
贝 叶 斯 推断 的 基础 (参见 13. 8 节 ) ,因为 它 包 含 关 于 数据 支持 先 验 的 信息 。 

后 验 预测 密度 

考察 单个 观测 值 y* 的 样本 外 预测 。 这 具有 密度 f(y*19) ,其 中 ,8 表示 未 知 
的 。y 的 后 验 预测 密度 (posterior predictive density) ,通过 6 的 后 验 概率 分 布 对 该 
密度 加 权 , 得 到 : 


frCy?) 一 | Fey 6)5(06|y)adg (13. 19) 
正如 回归 模型 一 样 , 协 方差 出 现在 似 然 函 数 中 时 ,这 些 密度 也 同样 以 它们 为 条 件 。 


13.2.6 后 狂 大 样本 符 性 


如 同 13. 2. 2 节 例 子 所 阐明 的 , 当 样 本 变 大 时 ,其 至 有 信息 的 先 验 对 后 验 的 影 
啊 会 消失 。 这 是 下 面 陈述 的 根基 : 渐 近 似 然 支配 着 推断 ,或 先 验 分 配 的 权 数 本 质 上 
会 随 样本 量 增 大 而 趋 于 0。 

由 于 认识 到 ,可 运用 后 验 分 布 ,对 后 验 的 渐 近 近似 是 人 们 所 关注 的 ,因为 它 能 
用 于 代替 真实 的 有 限 样本 后 验 分 布 。 由 于 渐 近 后 验 等 于 似 然 , 所 以 这 种 近似 很 容 
匈 狭 得。 我 们 沿 着 格 尔 曼 等 人 (Gelman et al. ，1995) 的 线索 展开 ,对 于 更 详细 的 内 
容 , 请 读者 参考 他 们 的 书 。 

为 了 简单 起 见 ,假定 观测 值 是 iid 的 。 于 是 ,后 验 对 数 为 : 


N N ， 
Dyinpl0|yi) = lnx(@) + > ln fly,|0) (13. 20) 
i 二 ] := 二 ] 


该 表达 式 清 楚 表明 ,在 大 样本 中 ,后 验 是 由 其 似 然 贡 献 所 控制 ,因为 先 验 对 后 验 的 
贡献 保持 固定 ,而 样本 对 后 验 的 贡献 却 随 N 而 增 大 。 

假定 后 验 pC(81y) 是 单 峰 的 且 渐 近 对 称 的 。 考察 后 验 众 数 的 浙 近 人 性 质 ， 用 8 表 
未 ,于 是 , 它 是 后 验 的 局 部 与 全 局 最 大 值 。 


了 7 贝 叶 斯 方法 


为 了 建立 8 的 一 致 性 ,注意 到 , 当 N->co 时 ,后 验 形 式 收 伍 到 MLE, 因 为 式 
(13. 20) 的 第 二 项 占据 控制 。 因 此 , 若 MLE 是 一 致 的 , 则 后 验 众 数 是 一 致 的 。 所 
以 ,如果 关 于 y 的 数据 生成 过 程 具有 密度 f(y19。), 同 时 关于 ML 估计 的 通常 正则 


条 件 得 以 满足 ,那么 6 -6g，。 

为 了 获得 6 的 浙 近 分 布 ,考察 后 验 对 数 密度 在 后 验 众 数 附近 的 二 阶 泰勒 级 数 
序列 展开 式 。 从 而 当 在 后 验 众 数 处 进行 计算 时 , 因 aln p81y)/39 二 0, 故 可 以 简 
化 为 


< a) a’ 
In p(0|y)~ln p(0 +5(0—6 ) pe Y 


93830 
并 假定 8 的 第 三 阶 导 数 与 更 高 阶 导数 能 被 渐 近 忽略 。 定 义 ， 
azln 六 (by) 

a030 
是 建立 后 验 密度 ln p(81y) 基 础 上 的 可 观测 信息 ,在 后 验 众 数 处 的 计算 值 。 于 是 ， 
对 式 (13. 21) 进 行 指 数 化 ,得 到 ， 


, |‘0—6) (13. 21) 


G0=0 





7T(0)= 





0=0 


p(Q|y) cc exp(—5(0—6 )7 (6 )(0—6)) 
这 是 多 元 变量 正 态 分 布 的 核 ,其 均值 为 8 且 方 差 矩阵 为 T(6 )-!。 由 此 可 得 ,后 验 ， 


by 一 AI， TC0)-!] (13. 22) 


当 梓 本 量 N 增 大 时 ,后 验 的 似 然 成 分 占据 控制 地 位 ,而 先 验 影 响 却 变 得 可 以 
忽略 。 在 这 种 情况 下 ,可 用 MLE 代替 众 数 9 ,作为 似 然 密度 的 众 数 。 从 而 ,得 到 有 
时 被 称 为 贝 叶 斯 中 心 极 限定 理 (Bayesian central limit theorem) 的 结果 [ 盖 默 曼 
(Gamerman，1997)]。 从 渐 近 形式 上 看 ,频率 学 派 推断 与 员 叶 斯 推 斯 都 将 建立 在 
同样 多 元 变量 的 正 态 分布 的 基础 上 ,因此 它们 之 间 的 不 一 致 不 应 是 显著 的 。 

文献 中 将 这 个 结果 称 为 伯 恩 斯 坦 一 汉 “。 米 泽 斯 定理 (Bernstein - von Mises 
Theorem) ; 特 雷 恩 (CTrain，2003, 第 12 章 ) 对 该 定理 的 三 个 成 分 提供 了 通俗 易 懂 的 
讨论 。 这 些 成 分 包括 :(1) 后 验 均 值 依 概率 收 伍 到 极 大 似 然 估计 量 的 结果 ;(2) 它 具 
有 极限 正 态 分 布 ;(3) 后 验 均值 的 极限 分 布 与 极 大 似 然 估 计量 的 极限 分 布 是 一 样 
的 。 在 贝 叶 斯 中 心 极限 定理 中 ,这 些 结 果 全 部 是 含蓄 的 (不 言明 的 ) ,对 于 那些 想 要 
在 估计 与 推断 中 应 用 似 然 原 理 的 人 ,该 定理 与 他 们 息息相关 ,应 密切 关注 。 

前 面 的 讨论 会 蕴含 贝 叶 斯 与 基于 似 然 方法 在 本 质 上 产生 相似 的 结果 吗 ? 对 两 
种 方法 的 选取 大 部 分 可 能 会 是 一 个 计算 效率 问题 吗 ? 然而 ,文献 中 存在 一 系列 论 
文 , 不 仅 证 明 这 两 种 方法 得 出 相似 结果 ,而 且 证 明 贝 叶 斯 方法 在 计算 上 常常 更 有 效 。 


13.2.7 由 叶 斯 闫 舱 分 本 


已 知 完全 后 验 分 布 p(8|1y) ,应 报告 8 的 哪个 点 估计 呢 ? 这 个 问题 已 在 4. 2 节 
研究 过 ,例如 ,对 于 y 的 最 佳 预测 来 说 ,利用 平方 误差 损失 。 相 反 , 这 里 考察 6 的 最 
佳 估计 ,例如 ,利用 二 次 损失 。 
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设 L(9,9 ) 表 示 设 定 的 损失 函数 ,其 中 ,6 表示 未 知 0 的 估计 值 。 损 失 是 未 知 
的 ,因为 它 依 赖 于 9, 而 9 是 未 知 的 。 不 过 ,我 们 能 求 损 失 关 于 0 的 期 望 值 ,与 经 典 
分 析 不 同 , 这 是 因为 贝 叶 斯 分 析 提 供 6 的 分 布 。 最 优 估计 量 (optimal estimator) 
Gort 是 求 期 望 后 验 损失 极 小 化 (minimizes expected posterior loss) 的 估计 量 6 ， 
或 者 : 


minE[L(0,0)|] = min|L(0,0 )p(8| yd0 (13. 23) 
0 0 


与 各 种 不 同 的 (9,6 ) 相 联系 的 损失 是 ,通过 后 验 概率 如 (8|y) 进 行 加 权 。 

可 以 证 明 ,后 验 均 值 是 在 二 次 损失 L(9,0 ) 一 (6 一 9 ) (9 一 8 ) 下 的 最 优 估计 
量 。 可 是 , 若 使 用 绝对 误差 , 即 L(9,0 ) 王 16 一 8 | ,后 验 中 位 数 则 是 最 优 估计 量 。 
一 旦 建立 起 后 验 分 布 ,这 些 点 估计 或 以 解析 形式 计算 ,或 以 数值 形式 计算 。 

在 某 些 条 件 下 ,可 以 证 明 , 求 期 望 后 验 损 失 等 价 于 求 期 望 后 验 风 险 (expected 
posterior risk) 极 小 化 。 风 险 国 数 来 目 总 体 y 的 假设 样本 对 可 能 损失 求 平 均 , 所 以 : 


R(9,6) 二 | Le,6 ) f(y| Ody 


为 避免 损失 函数 与 似 然 函数 之 间 相 混 光 ,本 节 与 下 一 节 方 程式 中 , 均 使 用 f(y198) 
等 价 于 似 然 函数 L(y19) 。 期 望 后 验 分 布 在 参数 9€ @ 的 各 种 不 同 值 上 进行 平均 ， 
而 参数 8 可 借助 于 后 验 密度 进行 加 权 , 所 以 : 


E[R(9,6)] =| (JL(@,6) /Cyl0dy)p(0ly) a (13. 24) 
一 | 人 | Le,6)p(ely de)f (yl Ody 
= |ELL(0,6)Jf(y| dy 


其 中 ,第 一 个 等 式 的 外 面积 分 是 针对 9 区 域 进行 ,第 二 个 等 式 中 的 积分 次 序 是 可 交 
换 的 ,而 第 三 个 等 式 则 为 结论 。 这 些 运 算 均 假定 ,L(6,0 ) 与 p(01y) 上 的 一 些 约束 
都 得 以 满足 。 例 如 ,p(6|1y) 必 是 正常 密度 陋 数 ,而 损失 哨 数 必 是 可 积 的 。 因 此 ,期 
望 风险 将 是 有 界 的 ,并 对 它 求 极 小 值 是 一 种 定义 良好 的 运算 。 

前 面 的 讨论 建立 了 著名 且 重 要 的 结果 , 即 贝 叶 斯 估计 量 在 使 其 对 设 定 损失 陋 
数 的 期 望 风险 求 极 小 值 的 意义 上 是 合理 的 。 


13.3 线性 回归 贝 叶 斯 分 析 


由 于 线性 回归 分 析 是 一 个 熟悉 的 专题 , 它 为 进入 更 一 般 非 线性 模型 的 研究 提 
供 了 有 益 的 途径 。 假 定数 据 由 标准 线性 回归 模型 


y 一 XG 十 u 
生成 ,其 中 ,X 表 示弱 外 生 的 回归 元 NXK 列 满 秩 的 矩阵 。 假 定 误差 是 独立 的 、 同 


方差 的 且 服 从 正 态 分 布 , 满 足 a 一 WiL0,c IJ。 因 此 ,样本 条 件 密度 是 y|X,G,o 一 
MLXB,o 了 IJ。 我 们 的 解释 遭 循 洋 尔 纳 (Zellner，1971) 的 线索 。 


fF 贝 叶 斯 方法 


我 们 依次 研究 非 信 息 先 验 与 信息 先 验 。 在 这 两 种 情况 下 ,经 过 某 种 相当 多 的 
代数 运算 ,能 够 获得 关于 后 验 的 闭 型 表达 式 。 对 于 非 信息 先 验 来 说 ,将 会 看 到 OLS 
佑 计量 作为 后 验 分 布 的 均值 ,具有 贝 叶 斯 解释 。 在 信息 先 验 情 况 下 将 会 看 到 ,后 验 
算是 样本 均值 与 先 验 均 值 的 加 权 函 数 。 

后 面 儿 市 曾 述 比较 容易 处 理 模型 的 方法 ,尽管 如 此 ,分 析 仍 可 简化 ,如 果 结 果 
类 似 于 这 一 市 给 出 的 那些 结果 ,它们 能 应 用 于 模型 的 某 些 子 成 分 。 


13.3.1 非 信 息 先 验 


对 于 非 信息 先 验 来 说 ,我 们 使 用 杰 弗 里 斯 先 验 。 由 13. 2. 4 节 知 ,对 于 y 一 
Ml,o’ jj 来 说 ,关于 的 这 个 先 验 ( 给 定 o 为 已 知 ) 是 一 个 常 值 ,而 关于 o 的 先 验 
(给 定 为 已 知 ) 与 a 成 比例 。 就 回归 情况 而 言 , 这 可 推广 到 关于 B 的 常 值 先 验 
上 ,7 一 1…… 天 ， 因此 Ax(B;) occ, 而 且 关 于 o 的 先 验 是 xr(o’) cl/o’. 先 验 将 B 的 
所 有 值 看 成 相等 的 ,而 将 of 的 较 小 值 看 成 更 大 一 些 。 和 大 假定 8 与 o 的 独立 性 , 则 联 
合 先 验 是 : 

rc)ccl/c- 
似 然 函数 能 重新 号 成 : 


L(G,0? ,0 一 (2xp2)-weexp| 一 Gy 一 XGO) (Gy 一 XG) | (13. 25) 
1 


cc(c2) Nexp( —a5 


(it (8— XXB— AP}) 
cca’) -Nrexpl( -i(N—K)s+(8— DD'X'XB— 
其 中 , B= (X31XY, 而 y 一 XB; 第 二 行 运用 y 一 XB 一 一 X(8 一 PD 且 Xi 一 0; 
第 三 行 运用 = 二 六 /CN 一 K)，。 
将 式 (13. 15) 的 似 然 与 先 验 结合 起 来 ,得 出 其 后 验 密 度 : 
p(B,o° |y,X) (13. 26) 
] N/2 1 2 Pi wri > 1 
x (三) exp( 一 区 5{CN 一 天) +(8— 4B X'X(B 一 启 ) 二 
1 \ 2 1 /uri 2 
ce (5) exp(—zi{(N—K)s+(8— A X'X(B— 记 )) 
kK/2 1 a) ) 二 _ 
x{ (元 ) exp(—3(8— AP’ (ae?(X'X) 1!) (6 一 局 )| 


] 《入 一 兵 )72 十 1 (N— RK)s 

x | (去) exp( — D0 )| 

给 定 o: 时 6 的 条 件 后 验 分 布 p(Blo?,y,X) ,而 旦 数据 y、X 显然 都 是 天 维 多 元 
变量 正 态 的 ,其 均值 为 B8 且 方差 为 o:(X'X) !, 因 为 8 仅仅 出 现在 最 终 表达 式 的 第 
一 行 。 给 定 8 时 o ?的 条 件 后 验 , 由 于 o ?在 表达 式 最 终 两 行 都 出 现 了 ,所 以 它 更 难 
求 出 。 

通过 积分 去 掉 cz? 而 求 8 的 边缘 后 验 , 对 于 推断 B 的 后 验 而 言 ,这 样 做 极为 有 
用 。 我 们 对 式 (13. 26) 的 第 二 行进 行 积 分 ,做 变量 变换 z= 二 1/o? ,并 运用 给 定常 值 
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a 二 >0、c 放 一 1 时 | =exp( 一 az)dz 二 (cc 十 1)/am! 的 结果 ,这 里 c 二 NN/2 十 1 ,而 
a 二 4，}) 表 示 大 括号 中 的 长 项 。 从 而 ,得 到 边缘 后 验 分 布 的 核 ， 


plBIy,X) {CN—R)s+(B— A XXB— HD} Ni (13. 27) 
{lt BA'sN— KCK IB PY NK+R/ 


由 13. 3. 5 节 知 ,这 是 在 8 处 中 心 化 的 多 元 变量 学 生 : 分 布 的 核 ,其 自由 度 为 N 一 
K ,而 协 方差 算 阵 (XX) ! 用 (N 一 K)/(N 一 K 一 2) 乘 。 因 而 ,有 : 


~ tx(B,s: XX) !) (13. 28) 


B 的 单个 元 素 服 从 单 变量 学 生 上 分 布 。 

关于 o 的 边缘 后 验 更 容易 获得 ,如 果 将 式 (13. 26) 中 最 终 表达 式 对 8 进行 积 
分 ,同时 注意 到 ,B 只 在 最 终 表 达 式 第 一 行 出 现 , 这 是 WLB, cz(XX)-:] 密 度 的 核 
且 积 分 为 ]。 由 此 可 得 ,ao? 的 边缘 后 验 是 : 


(13. 29) 


-一 2 
plo’|y,X) cc (0? ) Nenexp(— tS) 


20° 
这 个 表达 式 是 众所周知 的 反 向 平方 根 伽 玛 密 度 的 核 。 也 就 是 说 , 它 是 下 述 随 机 恋 
量 的 密度 , 即 含 有 自由 度 参 数 为 N 一 K 的 伽 玛 分 布 随机 变量 的 平方 根 的 倒数 。 该 
结果 等 同 于 频率 学 派 在 B 分 布下 得 到 的 结果 。 

因此 ,对 于 正 态 线 性 回归 来 说 ,含有 非 信息 先 验 的 贝 叶 斯 分 析 会 产生 在 数量 上 
类 似 于 标准 频率 学 派 分 析 在 有 限 样本 中 所 获得 的 那些 结论 。 以 z? 为 条 件 的 8 后 
验 服从 人 WELBG, cz(CXX) 二 分 布 , 而 无 条 件 的 8 后 验 服从 多 元 变量 : 分 布 。 

可 是 ,由 于 这 些 分 布 具 有 未 知 参数 8 的 形式 , 且 8 具有 均值 6 而 不 是 估计 值 
B 的 形式 ,对 它们 的 解释 截然 不 同 。 例 如 ,关于 B 的 贝 叶 斯 95% HPD 区 间 是 
B; tto.o2s,N Kk X se[ 8; ,其 中 , se[B; |= Cs: (XK) )! 。 由 13. 2.5 节 知 ,对 此 解释 是 
8 以 后 验 概率 0. 95 位 于 这 个 区 间 。 


13. 3. 2 信息 先 验 


如 采 我 们 使 用 关于 8 与 o 的 独立 共 绒 ,那么 在 信息 先 验 下 ,对 正 态 线性 回归 模 
型 进行 册 叶 斯 分 析 , 特 别 有 洞 察 力 。 由 13. 2. 4 节 知 ,关于 6B 的 共 示 先 验 是 正 态 的 ， 
而 关于 1/0 的 共 罗 则 是 佑 玛 的 。 从 而 ,得 出 正 态 一 伽 玛 先 验 (normal - gamma prior) : 


rn(B,1/o’)=rxNn (BI|1/o’) rl(1/o’) 
其 中 ,xn (B11/o?) 表 示 ML Oo ,0 -02 | 密度 , /9。 与 Sb 均 六 已 知 , 而 核 为 : 
nn (Bl/o’)oo exp | (13. 30) 


20° 


而 xy(1/o ) 表 示 G Lyo, so | 密度 ,其 中 » Vo 与 $0 均 为 已 知 常 值 ,并 县 .: 


2 
ry (l/r) a td exp| 一 风光 | (13. 31) 
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注意 到 , (局 部 ) 参 数 B 的 先 验 依赖 于 ( 标 度 ) 人 参数 c。 当 反映 了 建立 在 > 上 的 
标 度 是 度量 的 ,从 而 应 影响 到 B 时 ,这 就 会 有 意义 。 给 定 这 个 先 验 与 式 (13. 25) 中 
的 似 然 函数 ,其 后 验 密度 具有 正 态 合 玛 类 型 。 在 经 过 一 些 代数 运算 后 , 它 变 成 如 下 
形式 : 
: 2 \y—N/2 5 _ _(8—A) | 8— 8 
p(B,1/oly,X) oc (0’) eexp| > 本 |exp| ( 本 | 


x (a1) -Kexp| ~ (2-2) 0, (8— 0) ] 





2 
X (g?) ~ /2-1 exp| 一 富 3 | 
20 


cc (go) wt Malexp| 一 六 | (2 
X exp | -6B ) Q(B—B) | (13. 32) 
”其 中 ,6 与 Qi !' 表示 6B 的 后 验 均 值 与 方差 ,而 s? 表示 c2? 的 后 验 均值 ,它们 被 定 
义 成 ， 
B=(QW 二 XX)-Cm B+XXO) (13. 33) 
0 = (OW 十 和 XXX) 
一 % 十 了 二 (3 一 6) 二 OCXX)- CC9 一 G ) 
后 验 均值 8 可 通过 利用 “完全 平方 ”矩阵 形式 来 获得 。 特 别 地 ,给 定 KX1 维 向 量 
B.B、B。 和 BB 以 及 KXK 阶 对 称 方 阵 A 与 B, 可 以 证 明 : 
(8—Bo) AC3 一 6) 十 (G 一 办 BCI A 
一 (9 一 9)” (AT 二 B)(03 一 9 ) 十 (9 一 9) ABCATB)-1(CG 一 G ) 
其 中 ,8 二 (A 十 B) -1(ABo 十 BOB)，。 
8 与 cc 的 联合 边缘 后 验 具 有 相同 的 正 态 使 玛 形式 作为 先 验 。 


给 定 c? 时 , 的 条 件 后 验 具 有 均值 8 , 即 先 验 均值 Gu。 与 样本 均值 的 加 权 算 
阵 平 均 。 

通常 ,利用 共 斩 先 验 在 代数 上 等 价 于 使 用 源 目 相同 分 布 的 样本 来 增加 数据 。 
在 此 情况 下 , 正 态 一 颁 玛 先 验 等 价 于 满足 下 述 条 件 的 同样 过 程 的 额外 样本 , 即 该 过 
程 具有 Bo 的 回归 参数 估计 值 ,XX 和 矩阵 等 于 82, 自由 度 参 数 等 于 ww, 并 且 误 差 平 
方 和 等 于 ws ,由 于 人 2 是 一 个 固定 矩阵 ,所 以 当 N 一 吕 时 ,Y/N 一 0, 而 XX/N 
收敛 到 常 值 矩 阵 。 因 此, 知 验 证 在 大 样本 下 ,ML 估计 量 与 后 验 均 值 是 等 价 的 , 则 
B 一 BB。 后 验方 差 Qi 与 (mm 十 X X) 1 成 比例 。 更 详细 解释 ,参见 利 默 (Leamer， 
1978) 。 

B 的 边缘 后 验 可 通过 对 联合 后 验 积 分 c 而 获得 。 从 而 得 到 : 


pCB|y,X) cc [Ts 十 (3 一 8) (QtXX GB—B)] "tIK (13. 34) 
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因此 ,边缘 后 验 是 多 元 变量 学 生 : 分 布 ,如 同 非 信 息 先 验 情况 一 样 ,该 分 布 是 以 6 
为 中 心 的 ,而 不 是 以 为 中 心 的 。 

由 于 共 氏 先 验 处 理 先 验 信息 时 ,就 像 前 面 源 自 同样 过 程 的 样本 一 样 , 所 以 即使 
来 自 两 个 来 源 的 信息 可 能 处 于 矛盾 之 中 ,但 仍 可 对 样本 信息 与 先 验 信息 进行 对 称 
研究 。 因 而 ,利用 共 斩 先 验 在 数学 形式 的 方便 ,无 疑 付 出 很 高 的 代价 。 当 先 验 信息 
与 样本 信息 明显 表现 出 矛盾 时 ,可 以 预期 后 验 分 布 具有 双 峰 ,其 中 一 个 峰值 对 应 于 
样本 均值 ,而 另 一 个 对 应 于 先 验 均值 。 先 验 分 布 允许 人 们 捕获 这 类 特性 ,该 先 验 分 
布 意 指 设 定 8 具有 独立 于 1/o 的 多 元 变量 学 生 1 密度 ,而 1/c: 具 有 独立 于 XG 的 合 
玛 先 验 分 布 。 这 被 称 为 “ 迪 基 先 验 ”(Dickey”s prior)[ 利 默 (Leamer，1978, 和 第 79 
页 )]。 在 此 假设 下 ,边缘 后 验 是 两 个 多 元 变量 学 生 上 密度 之 积 ;该 积 也 可 表述 成 两 
个 上 分 布 的 混合 。 这 种 分 布 能 潜在 揭示 出 两 峰 性 。 利 默 (Leamer，1978) 对 这 种 情 
况 曾经 给 出 更 为 广泛 的 分 析 。 


13. 3.3 泥 合 伟 计 


在 频率 学 派 背 景 下 ,我 们 探索 线性 回归 贝 叶 斯 分 析 的 用 武之 地 。 

通常 ,频率 学 派 分 析 将 先 验 信息 并 入 等 式 约 束 之 中 ,这 是 先 验 中 的 方差 参数 趋 
于 零 的 贝 叶 斯 分 析 的 限制 情形 。 相 友 , 作 为 随机 的 先 验 信息 也 可 被 并 和 人 频率 学 派 
分 析 中 ,只 是 要 利用 混合 估计 (mixed estimation) 。 这 种 代数 运算 简单 ,并且 该 方法 
还 提供 一 种 方法 以 直观 认识 贝 叶 斯 方法 是 如 何 将 先 验 信息 和 样本 信息 融合 在 一 
起 的 。 

在 正 态 性 下 ,我 们 继续 研究 线性 回归 模型 。 假 定 回归 参数 的 先 验 信息 8 一 
NLT0, osx j, 这 一 点 相对 很 容易 地 推广 到 非 零 均值 上 。 将 先 验 信息 写成 : 


B=0++-v 


其 中 ,vy 表示 KX1 维 误 差 ,满足 v 一 NL0, oIkx 1]。 现 在 ,通过 这 个 先 验 对 y 一 XLG 十 
u 样本 信息 扩大 ,并 把 整个 模型 写成 增 广 回归 模型 (augmented regression model) : 


ob perl 


时 四 人 一 ,| (13. 35) 
-Due 


其 中 ,4 二 o/o, ,使 用 了 变换 v= 二 一 Av, 因 此 ,所 有 误差 具有 共同 方差 o 7。 
建立 在 这 种 增 大 数据 集 基 础 上 的 估计 量 是 合并 估计 量 (pooled estimator) 或 小 
合 估 计量 (mixed estimator) 。 以 和) 为 条 件 的 混合 佑 计量 是 : 


经 过 重新 参数 化 ,得 到 : 
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及 一 [XXX 二 NE] 'X’y (13. 36) 
一 [XXX (LAXX) 1)] iX’'y 
—[ 二 TACX XIX XIX'Yy 
=AB 


其 中 ,A 二 [I 十 和 (XX) 1 71, 而 = (X'X)-!1X'y 表示 无 约束 OLS 估计 量 。 

这 个 估计 量 是 所 谓 的 岭 回 归 估 计量 ,由 霍 尔 和 肯 纳 德 (Hoerl and Kennard， 
1970) 在 无 贝 叶 斯 分 析 理 由 的 情况 下 引入 ,以 此 对 抗 小 样本 的 多 重 共 线性 问题 。 该 
佑 计量 还 归属 于 压缩 估计 量 5"1]1(shrinkage estimator) ,此 估计 量 压 缩 到 (或 被 拉 向 ) 
先 验 均值 ,在 此 情况 下 , 即 压 缩 到 零 向 量 。 有 时 ,在 有 限 样本 拥有 多 重 共 线性 数据 
时 ,这 样 做 就 有 意义 ,其 中 “i 比率 ” 趋 于 0, 在 变量 系数 真实 趋 于 0 与 那些 变量 系数 
仅仅 看 来 好 像 是 0 之 间 进 行 辨 别 很 难 。 在 极限 形式 下 ,压缩 将 变量 排除 在 外 。 

值得 注意 及 的 几 个 特性 :(1) 以 4 为 条 件 的 成 表示 6B 后 验 分 布 的 均值 ; (2) 此 
估计 量 是 0 向 量 与 太 的 矩阵 加 权 平 均 (Cmatrix-weighted average) ; (3) 如 果 我 们 选 
取 使 估计 量 加 着 某 个 非 零 8 收敛 ,比如 说 Bu ,那么 代数 运算 几乎 没有 什么 变化 。 
于 是 ,所 得 到 的 估计 量 是 向 量 Go 与 8 的 矩阵 加 权 平均 (matrix-weighted average of 
vectors) 。 

当 N 一 co 时 ,对 称 加 权 和 矩 阵 A 二 [I 十 (A?/N)(CN IX XX) -一 下 ,这 是 因为 
A*/N 一 0。 因 此 : 


所 以 先 验 对 后 验 均 值 的 影响 会 随 着 样本 变 大 而 消失 。 类 似 地 , 扩 的 条 件 后 验方 
差 由 : 
V[ B=AV[ BO A, 
—oA, (XX) 1!A, 


给 出 ,所 以 当 样本 量 N 一 oo 时 ,VLB] 一 o* (XX) '，。 
对 于 有 限 样本 来 说 ,以 4 与 c ?为 条 件 , 及 的 条 件 后 验 分 布 (posterior distribu- 
tion) 为 : 


局 11 oi:~N[AB, oA, (XX)- 1A] (13 37) 


记 的 边缘 后 验 分 布 可 通过 积分 去 掉 ) 与 o ?而 获得 。 若 将 4 处理 成 给 定 的 , 旦 假定 
关于 o: 具 有 不 明确 先 验 或 非 信 息 先 验 ,就 能 积分 去 掉 o? ,正如 13. 3. 1 节 所 证 明 的 。 
这 种 积分 运算 在 解析 形式 上 是 可 行 的 ,而 且 会 得 到 Bh 的 边缘 后 验 , 它 是 多 元 变量 
学 生 上 分布 的 。 最 后 ,我 们 设 定 4 的 先 验 分 布 ,由 于 * 汪 0, 即 可 能 的 件 玛 先 验 , 然 后 
继续 积分 去 掉 它 。 不 过 ,4 以 难以 处 理 的 方式 进入 条 件 后 验 中 ,而 且 在 解析 形式 上 
不 能 积分 去 掉 它 。 在 此 情况 下 ,需要 采用 数值 技术 。 假 定 可 以 这 样 实施 ,然后 对 这 
个 模型 进行 贝 叶 斯 处 理 。 


[C1] 又 称 为 压缩 型 信 计 量 。- 一 - 详 者 注 
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13. 3.4 分 层 先 性 


我 们 考察 三 阶段 线性 回归 模型 ,该 模型 关于 回归 参数 是 分 层 的 , 而 方差 参数 则 
不 是 。 

第 一 阶段 是 线性 回归 模型 , 记 为 y 二 入 Bi 十 uu, 其 中 ,增加 下 标 1 用 以 区 分 第 一 
阶段 的 参数 及 回归 元 与 第 二 阶段 的 参数 及 回归 元 。 参 数 B1 是 随机 的 ,并 且 对 其 建 
模 既 依赖 于 参数 ,又 依赖 于 数据 ,因此 B1 一 XzBi 十 v。 例 如 ,第 一 层 对 个 体 学 生 检 
验 成 绩 建 模 , 而 第 二 层 则 对 学 校 特性 建 模 。 假 定 误差 是 正 态 分 布 的 。 第 二 阶 参 数 
B: 被 处 理 成 未 知 的 ,并 对 它 设 定 一 个 先 验 。 同 理 , 对 第 一 阶段 模型 中 的 方差 参数 
ol 加 以 设 定 。 

假定 正 态 分 布 误差 ,并 且 利 用 共 斩 先 验 , 会 产生 下 述 模 型 ， 


y| Xi, B1, oi~N[XB, 二 TI] (13. 38) 
Bi|Xs, Bi, Es ~ NIX,B;, Es] (13. 39) 
B:~NLB', | z (13. 40) 

ol |y*,o®“ ~ Ny*/2, v'o” /2 (13. 41) 


其 中 ,Xi 表示 NXK 的 ,Xs 表示 K XM 的 ,Bi 表示 KX1 的 ,B; 表示 MX1 的 , 环 
表示 KXK 的 ,人 表示 MX1 的 ,而 于 表示 MXM 的 。 对 于 回归 参数 B1 来 说 ,第 
二 行 给 出 其 先 验 ,而 第 三 行 给 出 后 面 第 二 阶段 关于 B; 的 先 验 ,或 者 先 验 之 先 验 ( 尽 
管子 被 假定 是 已 知 的 ) ,参数 (B*, 允 ) 常 常 称 为 超 参 数 。 对 于 方差 参数 来 说 ,第 四 
行 给 出 方差 参数 oi1 的 先 验 ,vy* 与 o “是 已 经 设 定 的 。 新 的 内 容 是 增加 部 分 [ 式 
(13. 40) 1。 

注意 到 ,我 们 将 一 些 阶段 释放 起 来 。 而 且 , 将 这 转变 成 两 层 模型 。 特 别 地 , 利 
用 信息 先 验 两 种 方式 之 一 ,可 写 出 两 阶段 模型 ,或 者 : 


y|Xi， Bi1， oi~NLXB, olln ] 
BilX2, Es ~ NLXB', TX, EX, | 
或 者 : 
y|X1, Xs, 2, Ea, ot ~N[X X22, o?In+X Eo Xi 
Be~NLG, | 


若 ol 给 定 , 这 种 设置 背景 对 应 于 条 件 共 力 (conditionally conjugate) 正 态 先 验 。 利 用 
前 面 介绍 的 结果 ,将 B1 或 者 B; 的 后 验 均值 表达 式 推导 成 为 8* 与 B 或 8 与 太 
的 和 矩阵 加 权 平 均 。 

运用 正 态 分 布 只 是 一 种 阐述 性 的 。 关 于 广义 线性 模型 的 分 层 模 型 , 即 线性 指 
数 族 的 成 员 , 具 有 广泛 应 用 [阿尔 伯 特 (Albert，1988)j]。 

在 分 层 模 型 中 ,以 便于 处 理 的 解析 形式 获得 第 一 阶段 参数 比如 Bi 的 后 验 概率 
分 布 是 不 可 能 的 。 辛 运 的 是 ,下 一 节 将 要 阐述 的 计算 方法 ,特别 适合 于 对 层 结构 进 
行 建 模 。 


了 贝 叶 斯 方法 


另 一 种 方法 , 即 对 经 验 贝 叶 斯 Cempirical Bayes) 的 应 用 ,涉及 较 高 阶段 先 验 中 
的 参数 估计 ,这 类 似 于 似 然 方法 。 例 如 ,该 方法 避 开 假定 丈 与 于 均 是 已 知 矩 阵 。 


”13.3.5 多 元 变量 分布 与 威 沙 符 分 布 


与 经 典 分 析 相 比 , 贝 叶 斯 分 析 使 用 更 广泛 的 分 布 。 这 里 ,对 线性 回归 在 正 态 性 
下 贝 叶 斯 分 析 用 到 的 两 个 多 元 变量 分 布 加 以 详细 阐述 。 

多 元 变量 :分布 是 将 单 变 量 学 生 上 分 布 推广 到 多 元 变量 的 情形 。 它 类 似 于 多 
元 变量 正 态 分 布 , 只 是 其 分 布 尾部 相当 宽 。 在 贝 叶 斯 分 析 中 ,给 出 关于 C 的 后 验 分 
布 , 共 斩 正 态 先 验 (参见 13. 3. 2 节 ) 或 能 直接 用 作 关 于 6 的 先 验 , 当 其 尾部 比 人 们 
期 望 的 正 态 尾部 大 时 , 便 出 现 多 元 变量 :1 分布。 一 个 gqX1 维 随机 变量 上 作为 多 元 
变量 学 生 z 分 布 ,其 中 ,自由 度 参数 为 均值 为 w 且 分 散 参 数 为 互 , 它 具 有 联合 
密度 . 


FPCCo 十 1772) 


1 


] J 一 (人 十 罗 972 
Xt 二 (tp >» ‘t p) | 
其 中 ,T() 表 示 伽 玛 函 数 。 这 个 分 布 关 于 众 数 严 是 对 称 的 , 当 u>1 时 ,均值 为 
1 ,而 当 v>2 时 ,方差 为 Lv/(v 一 2) ]。 其 尾部 比 正 态 的 要 宽 一些 ( 例 如 ,大 v 一 3， 
则 方差 为 33) ,提出 一 种 容易 获得 抽样 的 方式 ,同时 当 v 一 oo 时 , 变 成 正 态 和 情况。 
若 z 一 NW[0 ,日 , 且 ss 一 X ww ; 则 t==p 十 22/Vs1v 服从 此 处 给 出 的 多 元 变量 
分 布 。 

威 沙特 分 布 是 单 变量 卡 方 分 布 推广 到 多 元 变量 的 情形 ,或 更 一 般 的 伽 玛 分 布 。 
在 贝 叶 斯 分 析 中 , 它 用 作 儿 元 变量 正 态 分 布 的 协 方 差 矩 阵 闭 的 共 斩 先 验 。 一 个 
gXg 阶 随机 正定 矩阵 W 作为 威 沙 特 分 布 (Wishart distributed) , 其 自由 度 参 数 
vu 宇 9, 且 标 度 矩 阵 $S, 它 具有 联合 密度 : 


fw Wl|v, S) -2o2rronT[T(2 二 1 一) 
x|SsSli™ |W exp(— tr(S ITW)7/2) 
其 中 ,TC ) 表 示 伯 玛 函数 ,而 trC*) 表 示 算 阵 的 迹 。 这 一 分 布 具有 均值 vwS。 关 于 iid 
多 元 变量 正 态 数 据 的 样本 协 方差 矩阵 就 是 威 沙特 分 布 。 更 一 般 地 ,给 定 v(q) ,独立 
的 gqgX]1 维 回 量 X; ~N|0, S |, 则 2 xX 服从 威 沙特 分 布 。 当 W 服从 密度 为 
fwCW-!|v, S) 的 威 沙特 分 布 时 , W 服从 道 威 沙特 分 布 (inverse-Wishart distribu- 
ted ) ,其 密度 为 : 
PPwCW| Us S) 


好 四 站 
一 ?ozxeeD/ [Tr (es ) [SI |W| -tr /2exp(— tr(S 1! W)/2 ) 
] 


1 二 
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13. 4 ”和 驼 特 卡 罗 积 分 


在 许多 建 模 情况 中 ,关注 参数 的 后 验 分 布 在 解析 形式 上 是 难以 处 理 的 。 在 这 
类 情况 下 ,需要 数值 方法 来 估计 全 部 后 验 分 布 ,或 者 舍 计 该 分 布 的 某 个 重要 成 分 ， 
请 如 后 验 均值 。 

在 本 节 ,我 们 考察 在 没有 以 显 性 方式 获得 后 验 分 布 时 对 重要 后 验 矩 进行 计算 。 
第 12 章 的 一 些 方法 能 得 以 应 用 ,只 需 潜在 而 很 少 的 计算 ,对 于 整个 样本 而 不 是 每 
个 个 体 都 要 进行 每 次 迭代 。 在 于 一 节 , 将 痔 述 模拟 后 验 分 布 的 方法 。 


13. 4.1 重要 抛 样 


假如 问题 是 计算 后 验 和 矩 消 数 ELm(81y)j」, 其 中 ,期 望 是 关于 后 验 密度 p(01y) 
的 。 我 们 想 要 计算 : 


Efm(0)] = | m0) pO y)d0 (13. 42) 


例如 ,第 个 参数 的 后 验 均值 是 E[9.] = |0.p (8 | y)d0 .其 他 一 些 例子 包括 后 验 标 


准 差 .边缘 后 验 密度 .后 验 区 间 以 及 给 定 参数 也 数 的 后 验 期 望 。 
由 第 12 章 知 ,对 E[m(0) ] 的 直接 蒙特 卡 罗 估 计 是 EL[m(0)] 二 S 12m(98'), 其 
叶 斯 背景 下 , 当 式 (13. 1) 中 正式 定义 的 后 验 密 度 不 存在 团 形式 解 , 这 种 估计 行 不 
通 ,进而 不 可 能 从 后 验 p481y) 中 实施 采样 。 可 是 ,我 们 能 使 用 12.7. 2 节 已 经 引进 
的 重要 抽样 。 所 考察 的 式 (13. 42) 积 分 重新 写成 : 
加 m(0)p(0|y) 
FlLm(0)] = | | gz(0) 
其 中 ,g(0)>0 表示 已 知 的 密度 消 数 , 它 与 p(8|1y) 具 有 相同 支 集 ,这 很 容易 进行 米 
样 。 其 对 应 的 蒙特 卡 罗 积 分 估计 是 : 
。 _ 1 m(0)p(01y) 
E[m(0)] 一 § 2 0) 
其 中 ,6# 表示 从 重要 抽样 密度 (importance sampling density)g (0) 而 不 是 从 最 初 目 
标 密度 (target density) p(01y) 中 得 到 的 S 个 8 采样 ，s 一 1,…,S。 注 意 到 , 如果 
p01y) 依 赖 于 额外 的 参数 ,或 者 完全 条 件 密度 的 函数 形式 是 已 知 的 ,但 边缘 后 验 的 
函数 形式 是 未 知 的 ,要 求 p(81y) 与 g(0) 应 该 具有 相同 的 支 集会 出 现 潜在 问题 。 
此 外 ,应 用 后 验 密度 需要 解释 式 (13. 1) 分 母 中 的 积分 常 值 。 设 pe (981y) 表 示 
后 验 密度 的 核 (kernel) ,其 中 , pe (81y) = 二 L(y|109)x(0) ,或 者 是 这 个 量 的 倍数 。 然 
而 ,为 了 记号 简单 起 见 , 在 下 文中 不 使 用 关于 y 的 依赖 性 。 于 是 ,后 验 密 度 为 : 


pr (0) 
|p™ 0d 


) g(ad0 | (13. 43) 


p(0) 一 


fF 贝 叶 斯 方法 


其 对 应 的 后 验算 为 : 
p""(0) 


ELm(0) ] 一 |mce) fp” (9) dg 


d0 








| |mc@)p™ 0)a0 
|p* 0) de 


| mC@) pr (0) /gC0) )g(0)d0 
| Com C0) /gC0))g(0)d0 


于 是 ,后 验 矩 E[m(0) ] 的 重要 基于 抽样 估计 (important sampling-based estimate) 是 : 
2) m0) pe (0')/g(0") 


FE )] 一 
0 去 > pr (0')/g(0) 
OS s 一 : ] s 


(13. 44) 


其 中 ,6 表示 从 重要 抽样 密度 g (8) 中 得 到 的 S 个 8 采样 ,s 一 1,…,S。 

这 个 方法 是 由 殉 洛 元 和 范 迪 克 (Kloek and Van Djk，1978) 提出 的 ,在 某 些 正 
则 条 件 下 , 格 韦 克 (Geweke，1989) 建立 了 一 致 性 与 渐 近 正 态 性 。 这 些 条 件 包 括 下 
述 几 个 假设 :在 p(0) 的 支 集 R(8) 上 ,重要 抽样 密度 gC(0) 汪 0;E[Lm(9)j] 二 呈 , 因 


而 后 验 矩 存在 ;| p(91y)d9 一 1, 从 而 后 验 密度 是 正常 的 。 正 如 前 面 已 注意 的 , 通 党 
我 们 以 核 p*'(8|y) 一 LIy|9)r(9) 来 进行 分 析 , 这 不 必 积 分 为 1。 先 验 x(0) 不 必 是 
正常 的 ,但 为 了 确保 [pC(91y)49 二 1, 它 必须 满足 =(6)dg 二 co。 


重要 抽样 方法 虽然 简单 ,但 格 韦 克 (Geweke，1989) 指 出 ,实施 起 来 需要 给 出 良 
好 的 巧妙 解释 。 一 个 关键 性 要 求 是 ,g (0) 应 比 p(8|y) 具 有 更 厚 的 尾部 ,以 此 确保 
重要 权 数 (importance weight) w(0) 一 p(0|y)/g(90) 有 界 。 鉴 于 后 验 对 数 的 渐 近 正 
态 性 ,对 g(9) 的 良好 选择 是 多 元 变量 上 分 布 , 对 其 均值 设 定 为 后 验 众 数 , 而 协 方差 
和 矩阵 与 后 验 对 数 海 赛 阵 的 道成 正比 ,同时 对 自由 度 设 定 为 充分 小 的 值 ,以 便 保 证 其 
原 尾部 。 格 韦 克 (Geweke，1989) 还 提供 了 所 谓 的 数值 有 效 性 (numerical efficiency)， 
估计 利用 从 g(0) 得 到 的 抽样 进行 计算 来 达到 E[m(8)] 给 定 准确 性 水 平 所 需要 的 
复制 次 数 , 相 对 于 从 pC(81y) 进 行 采样 可 能 所 需要 的 复制 次 数 。 由 第 12 章 知 ,对 于 
较 高 阶 积分 ,为 了 获得 积分 良好 近似 就 需要 更 多 次 的 模拟 采样 ,而 且 人 们 可 另外 使 
用 第 12 章 曾 阐述 的 模拟 加 速 法 ,例如 对 偶 抽 样 。 

重要 抽样 方法 使 用 了 等 概率 从 抽样 密度 g(0) 中 得 到 的 采样 。 一 种 更 有 效 的 
近似 可 以 依照 g(6') 接 近 目 标 pC6'1y) 的 程度 ,来 对 采样 给 予 权 数 。 这 通过 重要 下 
抽样 来 完成 [参见 格 尔 曼 (Gelman,1995)j]。 

重要 抽样 方法 可 用 于 提供 后 验 的 许多 有 用 概括 性 测量 ,如 同 13. 2. 5 市 所 阐述 
的 。 人 允许 计算 95% 后 验 区 间 与 & 后 验 密度 图 ,这 就 会 包括 后 验 的 分 位 数 及 自分 位 
数 估计 值 。 
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13.5 马尔 可 夫 链 去 特 卡 罗 模 拟 


册 叶 斯 分 析 的 现代 思想 更 加 专注 于 对 后 验 分 布 的 重要 概括 性 测量 进行 估计 
(人 参见 前 面 一 节 ) ,因为 从 后 验 分 布 获得 大 样本 是 人 们 所 期 望 的 。 然 后 ,来 自 后 验 的 
这 种 样本 概括 统计 量 将 会 提供 所 期 望 的 有 关 估 计 值 的 样本 和 抢 特 征 信息 以 及 其 他 有 
意思 的 相关 测量 信息 ,比如 参数 的 边缘 分 布 或 者 参数 图 数 信息 。 例 如 ,给 定 从 后 验 
分 布 中 得 到 的 S$ 个 采样 ,通过 S ”之 ,0: 估计 EL6, j]。 

当 后 验 密度 不 存在 容易 处 理 的 财 形 式 表 达 式 时 ,挑战 是 从 联合 后 验 分 布 中 获 
得 来 梓 。 如 采 利 用 重要 抽样 对 后 验 矩 计算 ,存在 适当 密度 ,那么 利用 12. 8 节 所 述 
的 筛选 法 从 后 验 中 采样 同样 是 合适 的 。 不 过 , 当 出 现 拒绝 高 百 分 位 数 时 , 该 方法 便 
无 效 。 

然而 , 序 贯 采样 (sequential draws) 会 使 得 产生 的 模拟 值 收 人 钱 到 平稳 分 布 上 。 
如 果实 施 的 序 吐 是 足够 长 的 ,该 平稳 分 布 与 目标 后 验 密度 如 (6|y) 相 一 致 。 这 种 方 
法 称 为 马尔 可 夫 和 链 蒙 特 卡 罗 (Markov chain Monte Carlo，MCMC) , 因为 它 涉及 ( 蒙 
特 卡 罗 ) 模 拟 且 序列 是 马尔 可 夫 形 式 的 。 在 此 链 收 敏之 后 ,S 个 序 贯 采样 用 于 计算 
后 验 的 概括 性 测量 ,比如 通过 ELb]=S- 120: 估计 EL9]。 不 过 ,一 些 采 样 是 正 
相关 的 , 故 对 于 给 定 的 S 来 说 ,估计 的 准确 性 将 会 减少 ,因为 其 估计 方差 将 大 于 通 
常 的 (S 一 1) 1 2,(G 一 E[0.])?。 

序 贯 方法 要 求 构造 马尔 可 夫 链 。 两 种 广泛 使 用 的 计算 法 是 , 吉 布 斯 抽样 兹 
(Gibbs sampler) 与 梅 特 罗 波 利 斯 一 黑 斯 廷 斯 (Metropolis - Hastings) 算 法 ,前 者 是 
后 者 的 一 种 特殊 情况 ,参见 黑 斯 廷 斯 (Hastings，1970) 。 针 对 该 主题 的 详细 研究 内 
容 , 可 在 格 尔 曼 等 人 (Gelman et al. ，1995) ,六 上 默 曼 (Gamerman，1997) 以 及 罗伯特 
和 卡 塞 拉 (Robert and Casella，1999) 的 文献 中 找到 。 下 述 内 容 是 一 个 基本 概述 。 


13.5.1 马尔 可 天 链 


在 盘 述 吉 布 斯 抽样 徐 与 梅 特 罗 激 利 斯 一 味 斯 廷 斯 算法 之 前 ,我 们 给 出 MCMC 
文献 中 使 用 的 一 些 重要 定义 及 概念 。 这 些 定 义 是 在 离散 状态 模型 背景 下 给 出 的 。 
可 将 它们 推广 到 连续 状态 模型 ,用 于 后 验 关 于 参数 为 连续 的 有 关上 应 用 。 

马尔 可 夫 链 (Markov chain) 被 定义 成 随机 变量 z,(2 一 0,1,2,…) 的 一 个 序列 ， 
其 中 ,zx; 在 有 限 空间 A 中 取 值 ,并 且 把 x; 定义 成 等 于 给 定 前 面 一 些 x,-; 值 时 特殊 
值 转移 核 (transition kernel) 。 考 察 具 有 下 述 性 质 . 


Pr| zi =x| x Tr 1 To |] 一 Prl zi 一 并 | 并 | (13.45) 


的 马尔 可 夫 链 ,因而 给 定 过 去 zw+1 的 分 布 仅 仅 由 前 面值 zx; 完全 决定 。 这 种 转移 核 
是 一 个 转移 矩阵 T (transition matrix) , 它 的 元 素 满 足 : 


1 一 PrLz 一 yz 一 工 ] (13. 46 ) 


韭 正式 地 讲 , 它 表示 从 xz 到 yy 的 概率 。 对 于 有 限 状 太 (finite-state) 马尔 可 夫 链 来 
说 ,zx, 可 能 取 值 的 集合 A〈 状 态 ) 是 具有 有 限 个 元 素 , 比 如 说 和 个。 于 是 : 


Ul ?im 
T=|: *. :; (13. 47) 
ml 机 Lmm 


其 中 ,2% tj 二 1, i 二 1 ,Mm。 
现在 ,考察 从 工 到 > 用 了 nn 步 ( 阶 段 ) 的 转移 。 该 转移 概率 由 全 给 出 ， 即 全 的 
n 次 矩阵 积 。 甜 阵 T°? 的 行 给 出 在 第 n 阶段 跨越 m 个 状态 的 边缘 分 布 ,而 第 7 列 问 
量 tf 三 (好 zt ) 给 出 在 第 x 阶段 从 状态 7 到 其 他 状态 的 转移 概率 的 边缘 分 
布 。 若 转移 概率 的 初始 分 布 记 为 6 , 则 久 一 开 二 人 T。 因 此 ,在 第 ”阶段 上 
转移 概率 的 边缘 分 布 只 是 由 初始 分 布 与 转移 佐 阵 确定 。 在 马尔 可 夫 模 拟 育 景 下 ， 
当 n 一 oo 时 , 链 的 半 近 特性 成 为 关注 的 内 容 。 一 个 链 称 为 可 产生 含有 转移 概率 1， 
的 平稳 分 布 (stationary distribution ) 或 不 变 分 布 (invariant distribution) ,如果 : 
DT,y=t,, VyEA (13. 48) 


工 筷 各 


其 中 ,转移 是 从 状态 t 到 t,。 然 后 ,利用 转移 矩阵 ,从 而 得 出 转移 概率 的 边缘 分 布 
没有 任何 变化 。 平 稳 分 布 的 存在 性 与 唯一 性 是 一 个 重要 问题 。 

在 平 稳 分 布 人 存在 , 且 lm -ft 一 t, 则 此 链 与 初始 分 布 独立 、. 渐 近 地 赵 问 于 
t, 。 在 这 个 意义 上 ,t, 成 为 极限 。 尽 管 此 处 平稳 分 布 是 对 有 限 状 态 马 尔 可 夫 链 来 
定义 的 ,但 MCMC 方法 能 处 理 马 尔 可 夫 链 是 无 限 状态 的 情况 ,参见 吝 尔 殉 斯 、 理 查 
森 和 施 皮 格 尔 截 尔 特 (Gilks, Richardson ,and Spiegelhalter,1996 ,第 60 一 61 页 ) 。 

一 个 状态 y 可 能 是 循环 的 或 非常 返 状 态 的 。 一 个 循环 状态 (recurrent state) 是 
指 该 状态 以 概率 1 重新 返回 ,而 一 个 非常 返 状态 (transient state) 是 指 该 状态 不 会 
以 某 个 正 概率 重新 返回 。 

对 于 册 叶 斯 应 用 来 说 ,目标 是 从 后 验 如 (0) 中 狭 得 采样 。 一 旦 应 用 马尔 可 夫 链 
获得 这 些 采 样 ,参数 向 量 的 初始 值 0” ( 它 类 似 于 状态 的 分 布 ) 是 被 指派 的 或 者 从 转 
移 核 中 抽样 来 的 。 奉 利用 合适 采样 伪 随 机 数 的 方法 , 则 新 问 量 值 9 可 从 在 89 处 
计算 的 转移 核 中 采样 , 即 人 (0 ) 。 在 第 阶段 中 ,采样 是 从 转移 核 KC(9””) 中 抽 
样 等 。 所 用 的 马尔 可 夫 链 使 得 当 ”ce 时 ,极限 分 布 成 为 后 验 p(0)。 一 旦 出 现 收 
伍 到 极限 分 布 ,所 有 序列 采样 也 可 以 来 自 此 分 布 ,尽管 采样 序列 将 是 相关 的 。 

这 些 思想 提供 了 MCMC 程序 类 型 的 直观 基础 ,而 MCMC 程序 能 用 于 从 各 种 
各 样 的 可 能 高 维 数 的 模型 中 重新 获得 贝 叶 斯 后 验 分 布 , 例 如 在 13. 3.4 届 曾经 讨论 
的 线性 分 层 模 型 。 倘 奇人 们 设 定 从 9 中 采样 而 来 的 转移 核 K(98””,，，), 以 及 在 
其 内 可 艇 入 链 的 极限 分 布 , 则 目标 后 验 分布 在 任意 紧密 接近 的 情况 下 能 够 重新 
获得 。 

目前 表述 是 在 相当 一 般 水 平 上 给 出 的 。 实 不 中 ,对 转移 核 的 选择 不 是 唯一 的 ， 
并 存在 许多 可 能 的 人 们 能 构造 出 的 链 。 人 依照 收 皱 到 极限 分 布 的 速度 来 看 , 某 些 选 
择 或 许 比 其 他 一 些 要 好 。 当 人 们 发 现 收 人 钙 非 常 慢 旦 计算 量 巨 大 时 ,就 需要 用 可 供 
选择 的 链 来 代替 。 很 明显 , 链 处 于 第 n 阶段 时 ,需要 一 些 准则 来 确定 收 钙 是否 出 现 
以 及 接近 到 目标 分 布 的 程序 。 


微观 经 济 计量 学 


13. 5.2 声 布 斯 规 荐 带 


我 们 以 吉 布 斯 抽样 右 512Csampler) 开 始 讨论 , 吉 布 斯 抽样 硕 作 为 MCMC 类 型 
的 成 员 之 一 ,容易 对 它 给 出 描述 并 实施 。 

设 9 二 [01 9;」 具有 后 验 密 度 p (9) 二 pC(0;, 0;), 这 里 为 了 记号 简单 起 见 , 无 须 
对 > 相依 的 记号 。 如 果 条 件 密 度 已 知 , 就 无 须 p(0 190;) 和 p(8;10,) 的 知识 ,那么 
可 供 选 择 的 序列 采样 来 自 依 极限 收敛 到 从 p(6,， 68;) 中 得 到 的 采样 p(01 16,) 与 
p(0, |0').。 

例子 

一 种 简单 的 阐明 是 考察 具有 均匀 先 验 的 均值 及 已 知 协 方差 矩阵 的 二 元 正 态 数 
据 。 设 y— (yi 9 yz ) 一 人 ML9， 5 |， 其 中 人 一 [0， 0. |] ， 而 互 具 有 对 角 元 为 ] 有 目 非 对 角 
线 元 为 co。 然后 ,给 定 关 于 6 的 均匀 先 验 ,可 以 证 明 , 其 后 验 是 8ly~Mly, N ' 克 | 
二 元 正 态 分 布 。 由 于 条 件 后 验 分 布 是 : 


0 10 ， y 一 人 页 十 po(0 — 372), (1 一 7/N 
0, 10 ， y~N|Ly; 十 p(01 一 yi ) ， (1 一 02)/ 


我 们 能 够 利用 b 与 4 的 更 新 值 从 每 一 个 条 件 正 态 分 布 中 进行 迭代 抽样 。 奉 链 实 
施 足 够 长 , 则 它 将 收 钱 到 二 元 正 态 分 布 。 在 这 个 例子 中 ,利用 12. 8 节 给 出 的 乔 列 
斯 基 变换 ,很 容易 地 从 b|y 联合 后 验 中 做 出 直接 采样 ,可 是 在 其 他 一 些 例子 中 , 它 
可 能 从 条 件 后 验 而 不 是 联合 后 验 中 来 样 。 

吉 布 斯 抽样 妖 

更 一 般 地 ,考察 g 维 目标 分 布 p(0) ,这 里 不 使 用 对 数据 相依 的 记号 。 假 设 9 被 
分 割 成 a 个 块 。 例 如 ,线性 回归 例子 的 8 二 LGo?]。 设 0 表示 第 & 个 块 ,而 9-, 表 
示 剔 除 @ 之 后 剩 下 的 8 成 分 。 假 定 完 全 条 件 分 布 p(0. |18-) 剖 是 已 知 的 ,二 

…,d。 于 是 ,从 完全 条 件 中 进行 序 贯 抽样 建立 如 下 : 

(1) 设 9 的 初始 值 是 : 0 二 (01”，…,07 ) 。 

(2) 为 了 利用 从 下 述 d 个 条 件 分 布 中 所 得 的 d 个 采样 生成 9 二 (6;”，… 
86) ,下面 近代 涉及 连续 不 断 重新 访问 6 的 所 有 元 素 : 


p01 10 ,*…,0, ) 
p(0;" |01" , 0s ,*…,0, ) 


pO | 全” ,95 9 ,0 ) 


(3) 返回 步骤 1, 重 新 在 62 处 初始 化 向 量 6, 并 通过 步骤 2 进行 循环 ,再 次 获 
得 新 的 采样 62” 。 重 复 上 述 步 又 ,直到 收敛 为 止 。 

吉尔 克 斯 等 人 (Gilks et al ，1996, 第 7 页) 曾 提供 平稳 分 布 是 后 验 的 陈述 的 
“概括 性 证 明 。 在 收敛 之 后 ,从 目标 联合 后 验 中 就 可 采样 。 格 曼 和 格 曼 (Geman and 


[C1] 文 称 为 取样 器 。 一 一 译 者 注 
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Geman，1984) 已 经 证 明 , 随 机 序列 {9"}) 是 具有 正确 平稳 分 布 的 马尔 可 夫 链 。 

尔 芬 德 和 史密斯 (Gelfand and Smith，1990) 已 经 证 明 , 在 革 些 条 件 下 , 当 来 自 条 件 
分 布 所 有 集合 中 的 循环 次 数 趋 于 无 穷 时 , 链 会 收敛 到 平稳 后 验 分 布 。 也 可 参见 坦 
纳 和 旺 (Tanner and Wong, 1987)。 一 旦 出 现 收 合 , 可 大 量 采 样 ,并 用 于 计算 边缘 
分 布 或 联合 分 布 的 后 验算 的 样本 类 似 形 式 。 

这 里 提 及 的 一 些 绪 果 没有 告诉 我 们 ,达到 收敛 需要 多 少 次 循环 , 它 是 模型 相依 
的 。 非 常 重 要 的 是 ,确保 为 使 链 收敛 而 实施 足够 的 循环 次 数 。 可 以 利用 收敛 (com- 
vergence) 的 各 种 诊断 来 进行 检验 。 因 为 对 后 验 和 挺进 行 估计 应 该 建立 在 从 后 验 分 布 
中 获得 的 采样 基础 上 ,标准 的 做 法 是 抛弃 链 的 较 前 面 的 结果 ,这 就 是 所 谓 的 演练 阶 
段 (11(burnrin phase) 。 

对 序列 模拟 算法 可 加 以 修改 ,以 使 每 个 采样 不 卫 接 依赖 于 紧密 接 令 的 前 面 采 
样 , 却 还 是 依赖 于 较 早 采样 ,一 个 重要 要 求 是 ,对 后 验 的 当前 近似 加 以 改进 的 概率 
应 是 正 的 且 ( 更 可 取 地 ) 大 的 。 一 个 更 党 到 限制 的 马 氏 性 讲 的 吸引 人 之 处 是 , 它 会 
使 得 对 转移 分 布 收敛 到 目标 后 验 的 证 明 变 得 容易 。 

对 于 贝 叶 斯 分 析 来 说 , 当 联 合 后 验 不 容易 人 处理, 但 完全 条 件 分 布 却 是 可 利用 的 
方便 形式 时 , 吉 布 斯 抽样 副 就 可 派 上 用 场 。 许 多 应 用 都 运用 大 量 技 巧 与 共 绒 先 验 
的 知识 及 有 关 的 贝 叶 斯 结果 ,很 多 都 源 自 较 早 的 预 模 拟 文 献 , 以 便 设 定 会 产生 已 知 
的 完全 条 件 分 布 的 先 验 。 

下 面 考察 MCMC 方法 应 用 的 两 个 例子 。 

线性 回归 例子 

在 13. 3.2 节 ，, 我 们 曾 分 析 给 定 正 态 一 伽 玛 先 验 共 斩 时 ,正人 芒 线 性 同方 差 回 归 
模型 的 后 验 分 布 。 可 以 证 明 ,给 定 c“ 时 6 的 条 件 后 验 是 多 元 正 态 的 ,而 给 定 8 时 
5“ 的 条 件 后 验 是 伽 玛 分 布 的 。 即 使 积分 是 可 行 的 ,并 且 我 们 能 以 显 性 方式 推导 出 
后 验 [参见 式 (13. 32)] ,实际 上 更 容易 的 方法 也 要 使 用 吉 布 斯 抽样 项 从 联合 后 验 分 
布 中 采集 大 样本 。 链 是 由 从 以 精确 度 参数 c-* 为 条 件 的 正 态 分 布 与 以 B 为 条 件 的 
伽 玛 分 布 中 递 推 采 样 构成 的 。 

算法 的 结构 类 似 于 稍 后 13. 6 节 给 出 的 关于 两 个 方程 看 似 不 相关 回归 模型 的 
更 为 复杂 情况 。 

在 许多 情况 下 ,当然 ,以 参数 分 块 C21(blocks) 方 式 加 以 研究 。 例 如 ,在 含有 非 对 
角 线 同期 协 方差 矩阵 的 多 个 方程 变量 线性 回归 模型 中 ,条 件 均值 参数 (GD ,8;,…) 
形成 一 个 参数 分 块 , 而 互 形成 第 二 个 分 块 。 然 后 ,完全 条 件 分 布 拥有 6B1,6B:,… | 数 
据 , 互 以 及 互 | 数据 ，B1,B;,… 形 式 。 奇 布 和 格林 伯 格 (Chib and Greenberg， 
1996, 第 418 一 419 页 ) 对 这 种 情况 提供 了 吉 布 斯 算法 的 一 个 纲要 。 

分 层 先 验 例子 

在 分 层 先 验 模型 的 分 析 中 , 吉 布 斯 抽样 器 取得 了 很 大 程度 的 成 功 。 由 式 
(13. 39) 至 式 (13. 41) 给 出 的 线性 分 层 模型 的 结构 ,可 以 发 现 , 在 此 情况 下 ,用 公式 


[1] 又 称 为 预 烧 ,该 术语 源 自 工程 , 意 指 对 某 个 设备 加 以 调试 ,为 正式 运行 做 的 前 期 准备 。 一 一 说 者 注 
[2] 又 称 为 分 组 。 一 一 详 者 注 
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表示 建立 在 完全 条 件 分 布 集合 上 的 马尔 可 夫 链 是 可 行 的 。 同 样 的 一 般 方法 能 被 推 
广 到 非 线 性 分 层 先 验 模型 上 ,但 如 果 出 现 非 线 性 以 及 潜 变 量 模 型 ,就 不 可 避免 有 男 
外 一 些 步骤 [ 艾 伯 特 (Albert，1988) ]。 


13. 5. 3 楷 符 罗 流 利 斯 算法 


吉 布 斯 抽样 器 是 最 著名 的 MCMC 算法 。 不 过 , 它 的 应 用 性 是 有 限 的 ,因为 它 
要 求 直 接 从 完全 条 件 分 布 中 采样 ,而 完全 条 件 分 布 可 能 不 是 已 知 的 。 允 许 MCMC 
更 一 般 应 用 的 两 个 推广 是 , 梅 特 罗 波 利 斯 算法 与 梅 特 罗 波 利 斯 一 黑 斯 廷 斯 算法 。 
奇 布 和 格林 伯 格 (CChib and Greenberg，1995) 提 供 了 指导 手册 与 参考 文献 。 假 如 
读者 要 探索 更 完整 的 理解 ,下 面 的 概述 虽然 比较 简单 , 却 避 开 必 需 的 许多 详细 
内 容 。 

梅 特 罗 波 利 斯 算法 构造 一 个 序列 {9”" ,nn 二 1,2,…), 它 的 分 布 收敛 到 目标 后 
验 ,假定 此 目标 后 验 是 可 计算 的 ,并 且 计 算 结 果 至 多 差 一 个 正规 化 常 值 ，。 

为 了 记号 简单 ,我 们 再 次 不 用 p(81y) 对 y 的 相依 性 。 此 算法 由 下 述 步 又 
构成 : 

1. 从 对 p(0™” )>0 的 后 验 最 初 近似 中 采样 一 个 起 点 9 。 例 如 ,采样 从 边缘 
后 验 分 布 的 众 数 为 中 心 的 多 元 变量 上 分 布 中 得 到 。 

2. 设 n 二 1。 从 对 称 的 跳 暑 分 布 jumping distribution) 中 采样 J1 (6 10 ) ,该 
分 布 对 于 任意 序 对 (0,， 8) 具有 J, (Cg |) 一 六 (人 1g) 的 性 质 。 一 个 例子 是 
6 10 一 人 WL9 ,Vj, 对 于 某 个 同 定 的 V。 跳 贱 分 布 的 对 称 性 会 启 生 简 年 人 性， 否 
Ni 

3， 计 算 密 度 比 全 ”一 名” )/p(0”)。 

4 议 : 

8”， 尺 概率 min(r,1) 
-| 以 概率 (1 一 min(r,1)) 


这 意味 着 ,采样 9 是 从 具有 成 分 6" 与 8 的 混合 分 布 中 抽 到 。 

sS， 回 到 步骤 2, 增 大 计数 器 ,然后 重复 下 述 步 又 。 

6 在 迭代 适当 多 次 数 之 后 ,执行 分 布 收 伍 的 必要 检查 。 当 收 伍 出 现时 , 目标 
后 验 就 会 重新 获得 。 

可 将 该 算法 看 成 对 p(0) 求 最 大 值 的 迭代 法 。 如 果 98" 使 p(0) 增 大 ,那么 总 是 
有 6 一 0 ,然而 ,如 果 0 使 p(0) 减 少 ,那么 以 概率 rr 二 1 有 8” 一 0 。 

此 算法 思想 ,类似 于 筛选 抽样 (参见 12. 8 节 ) ,尽管 这 里 没有 要 求 :跳跃 分 布 的 
固定 倍数 ( 重 数 ) 总 要 覆盖 后 验 。 

梅 特 罗 波 利 斯 算法 会 生成 具有 可 道 性 和 不 可 约 性 的 马尔 可 夫 链 ,以 及 确保 收 
伍 到 平稳 分 布 的 哈里 斯 递归 (Harris recurrence)。 格 尔 坚 等 人 (Gelman et al.， 
1995) 已 经 证 明 , 这 个 平稳 分 布 是 人 们 所 期 望 的 如 下 后 验 p(0)。 设 0 与 是 两 个 
点 ,使 得 p(0,) 宇 p(0,)。 如 果 8"” "= 二 0, 且 久 三 0 ,那么 肯定 有 0” 二 0,， 而且 
“Pr[0” = 二 0,, 9”? 了 = 二 0, | 二 J ,(0,|0,)p(6,)。 如 果 次 序 被 三 倒 , 同 时 9” “= 二 0 且 
90* 一 60, , 若 给 定 对 称 跳跃 分 布 的 假定 , 则 以 概率 r= 一 p(0,)/p(0,), 有 090" 一 0 ,并且 
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Pr1 0"=0,, 0" °°=0,|=J,(0,)|0,)p(0,)[p(0,)/p(0,) |= J, (0,|0,)»(0,)= 
J.《0,10,)p(0,)。 因 此 ,9 的 边缘 分 布 与 9” 的 边缘 分 布 相等 ,因为 它们 的 联合 
分 布 是 对 称 的 ,所 以 p(0) 是 马尔 可 夫 链 的 对 称 平 稳 分 布 。 


13. 5.4 梅 符 罗 洲 利 斯 一 黑 斯 廷 斯 算法 


梅 特 罗 肖 利 斯 算法 的 效果 随 着 对 初始 近似 分 布 的 选择 以 及 对 跳 妈 分 布 的 选择 
而 变化 。 一 个 潜在 问题 是 , 梅 特 罗 波 利 斯 算法 可 能 会 很 慢 , 正 如 下 述 情况 :通常 , 当 
从 当前 值 到 一 个 新 值 的 移动 很 少 发 生 时 ,该 链 变 动 极 小 。 通 过 允许 使 用 不 是 对 称 
的 跳 牙 分 布 ,使 算法 速度 加 快 。 

梅 特 罗 波 利 斯 一 黑 斯 廷 斯 算法 | Metropolis - Hastings (M - H) algorithm | 与 梅 
特 罗 流利 斯 算法 一 样 , 区 别 只 是 ,第 2 步骤 中 跳 妈 分 布 不 必 是 对 称 的 ,第 3 步骤 对 
于 一 般 来 说 ,接收 概率 7 变 成 . 


p00 )/J,..0" 10" ") p(0" )J..0" “10") 


"pCO™-d )/J,0" 10* ) pO )J,0" | 人 ”人 ) 


其 余 步 又 利用 这 种 改动 定义 执行 。 注 意 到 , 知 任何 正规 化 的 常 值 或 者 出 现在 p(*) 
之 中 ,或 者 出 现在 J,(*) 之 中 , 则 在 对 x 的 这 种 定义 中 去 掉 它 们 。 因 此 ,后 验 概率 
与 跳跃 概率 仪 仅 要 求 计算 到 该 常 值 为 止 。 参 见 黑 斯 廷 斯 (Hastings，1970)。 


13.5.5 M- 互 例子 


就 从 后 验 中 获得 除了 尽 可 能 使 用 兰 布 斯 抽样 部 之 外 ,人 们 期 望 的 采样 所 需要 
的 采样 次 数 而 言 , 各 种 不 同 的 跳 妈 分 布 会 产生 具有 不 同 效 率 的 各 种 不 同 M-H 算 
法 。 我 们 给 出 几 个 例子 ,注意 到 ,对 于 选择 跳跃 分 布 来 说 ,存在 几 个 可 用 的 一 般 性 
指责 。 

吉 布 斯 抽样 颖 是 M- 五 算法 的 一 种 特殊 情况 。 契 将 6 分 割 成 d 个 分 块 , 则 算 
法 第 ”步骤 存在 d 个 梅 特 罗 波 利 斯 步 。 跳 妈 分 布 是 13. 5. 2 节 给 出 的 条 件 分 布 , 可 
以 证 明 ,其 接收 概率 总 是 1]。 吉 布 斯 抽样 ,也 称 为 交错 条 件 抽 样 (alternating condi- 
tional sampling) 。 

借助 各 种 不 同 转换 核 用 于 参数 的 不 同 子 集 上 ,一 种 可 能 方式 是 使 用 混合 策略 。 
例如 ,M- H 步 又 能 与 吉 布 斯 抽样 更 组 合 起 来 ,后 者 用 于 那些 可 能 采用 直接 抽样 的 
成 分 。 

无 关 链 511(independence chain) 是 从 固定 密度 g(09) 中 全 部 取样 ,比如 说 ,在 接 
收 概 率 简 化 成 重要 权 数 zx, 二 w (8 )/w(9“ 2 ) 比 值 的 情况 下 。 随 机 游 走 链 5 2 
(random walk chain) 是 令 采 样 9 一 9” 十 e, 其 中 ,e 表示 从 g (e) 获得 的 采样 。 

格 尔 曼 等 人 (Gelman et al. ，1995, 第 334 页 ) 曾 经 考察 对 带 有 方差 另 的 g 变 
晤 正 态 进行 模拟 。 对 于 具有 跳跃 分 布 9 19"? 一 ML9O”?, c 丈 | 的 梅 特 罗 流利 斯 
算法 来 说 ,选取 c 二 2. 4/Ygq, 导 致 了 从 g 变量 正 态 进行 直接 采样 时 的 最 大 效率 。 在 


[C1] 又 称 为 独立 链 一 一 译 者 注 
[2] 又 称 为 随机 游 动 链 。 一 一 详 者 注 
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一 oo 工 情 帝 下 ,与 1/9 的 吉 布 斯 抽样 器 相 比 ,该 效率 大 约 是 0. 3。 


13.6 ”MCMC 例子 :SUR 吉 布 斯 抽样 器 


我 们 阐明 吉 布 斯 抽样 器 应 用 于 看 似 不 相关 回归 模型 的 分 析 。 与 用 于 单方 程 回 
归 相 比 ,这 个 例子 显得 更 富有 挑战 性 ,因为 引进 了 不 同方 程 的 相关 误差 。 
考察 两 个 方程 的 例子 ,其 第 i 个 观测 值 为 : 
yi 一 Xi 十 El 
2 — X08? 十 &2; 


其 中 , (el ,ez) 表 示 两 变量 正 态 分 布 , 其 均值 为 0 且 协 方差 矩阵 为 : 
Ol O12 
~ 及 ”| 
各 对 这 两 个 方程 合并 , 则 得 到 其 第 i 个 观测 值 ， 
Vy; 一 XI 十 -ci 
其 中 ,EMN|L0,5 © 总 之 ,数据 生成 过 程 是 ， 


yi [x;, B, LE~ Nxg, DH 


而 关注 内 容 在 于 给 定数 据 y. 和 时 ,对 回归 参数 6 与 方差 参数 三 的 后 验 均 值 估 计 。 
考察 独立 的 信息 先 验 , 它 满足 : 


B~NLBo, B, ) 
5 一 Wishart| zw , D, | 


其 中 ,Bo 被 准确 定义 成 先 验 方差 的 道 ,而 由 13. 3. 5 节 定 义 的 道 威 沙特 则 是 对 道 件 
玛 的 推广 。 一 种 可 选择 的 方法 ,这 里 没有 采用 ,运用 类 似 于 13. 3. 2 节 那 些 情况 的 
相依 先 验 , 即 在 设 定 ww 的 B| 互 一 WLGo ,oo 互 ] 情 况 下 。 

经 过 茶 些 代 数 运算 ,得 到 条 件 后 验 ; 


N 
BIE, y, X~N|C (Bo Dx!y),,C | 
i 二 1 
N 
Y'|6G,y, X~ Wishart| m 十 N，( Di 十 >ruu) | 


其 中 ,Co—= Bot 2 XE Xi) 1 , 而 Uj 一 一 Xi 。 由 于 条 件 后 验 是 已 知 的 ,同时 从 
两 个 分 布 中 抽样 简单 易 行 , 故 使 用 吉 布 斯 抽样 垦 。 

就 模拟 例子 而 言 ,我 们 设 每 个 方程 中 的 回归 元 都 是 截 忠 加 上 单个 纯 量 回归 元 ， 
这 两 个 方程 的 回归 元 是 不 同 的 , 均 生 成 于 标准 正 态 。 于 是 ,》y 与 y: 是 四 个 回归 参 
数 Bii=Bz= f= Bo 一 1 生成 的 ,误差 方差 cl 二 az 一 1， 上 且 误差 协 方差 O12 一 G2l 一 
一 0.5。 样 本 量 或 者 是 N 二 1 000 ,或 者 是 N 二 10 000。 给 定 这 些 数据 ,我 们 阐述 参 
数 的 员 叶 斯 估计 ,其 中 , 先 验 分 布设 8 二 0, B。 二 rl ,DD 一 I 而 wo 一 5。 为 检查 各 
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Eh 


种 不 同 先 验 的 影响 ,考察 r 的 三 个 值 , 即 t= 二 10, r= 二 1 以 及 tr 二 1/10, 较 少 的 工 值 对 
应 于 较 紧 密 的 先 验 。 

吉 布 斯 抽样 郁 递 推 地 从 条 件 后 验 分 布 中 采样 。 我 们 拒绝 构成 “演练 阶段 ”的 前 
5 000 个 复制 ,然后 报告 利用 后 面 50 000 个 与 100 000 个 复制 的 结果 。 

表 13. 3 给 出 节选 部 分 的 结果 ,报告 5 个 不 同样 本 中 每 一 个 系数 边缘 后 验 分 布 
的 均值 及 方差 ,而 5 个 不 同样 本 自身 均 是 独立 采样 的 。 前 三 列 阐述 各 种 不 同 rz 值 
的 敏感 性 分 析 , 这 表明 结果 不 是 非常 敏感 的 。 与 第 一 列 相 比 , 第 四 列表 明 ,加 倍 复 
制 具有 非常 小 的 效果 。 与 第 一 列 相 比 , 第 五 列表 明 , 将 样本 量 增 加 10 倍 至 
10 00051J 会 极 大 提高 精确 度 , 如 人 们 所 料 , 将 系数 的 标准 误差 减少 到 大 于 3 的 因 
子 数 , 仅 仅 对 点 估计 的 影响 相对 小 些 。 


表 13.3 吉 布 斯 抽样 :看 似 不 相关 回归 例子 * 


先 验 参 数 r 一 10 r 一 1 r 一 17]10 r 一 10 rz 一 10 
样本 量 N 1 000 1 000 1 000 1 000 10 000 
吉 布 斯 样本 复制 50 000 50 000 50 000 100 000 100 000 
81 (方程 1 的 蕉 距 ) 0. 971 1. 013 0. 983 1. 020 1. 010 
(0. 031 0) (0. 031 2) (0. 031 6) (0. 032 4) (0. 010 0) 
Bz( 方 程 1 的 斜率 ) 1. 026 0. 983 5 1. 006 1. 006 1, 015 
(0. 026 5) 《0. 027 1) (0. 026 5) (0. 026 8) (0. 008 6) 
Bt (方程 2 的 截 吧 ) 1.016 0. 972 0. 993 1.017 0. 991 
(0. 030 9) (0. 032 5) (0. 032 2) (0. 032 6) (0. 010 0) 
rs (方程 2 的 斜率 ) 0. 983 0. 992 0. 979 1. 005 1. 007 
(0. 025 6) (0. 028 5) (0. 027 2) (0. 027 7) (0. 008 5) 
ou 《方程 1 的 方差 ) 0. 960 0. 969 1. 012 1. 043 1. 010 
(0. 042 9 ) (0. 043 4) (0. 045 3) (0. 046 6) (0. 014 3 ) 
oz( 误 差 协 方差 ) 一 0. 499 一 0. 507 一 0. 576 一 0. 576 一 0. 515 
(0. 034 0) (0. 035 8) (0. 036 8) (0. 037 9) (0. 011 3) 
oz22《 方 程 1 的 规 距 ) 0. 950 1. 066 1. 049 1. 062 1. 002 
(0. 425) (0. 047 6) (0. 046 7) (0. 047 2) (0. 014 1) 


* 模型 是 两 个 看 似 不 相关 回归 的 方程 。 该 表 给 出 了 每 个 参数 后 验 分 布 的 均值 与 标准 差 。 较 小 的 t+ 值 对 
应 较 紧 次 的 先 验 。 


一 种 检查 收敛 方式 是 考察 输出 的 均值 与 标准 差 ,看 看 它们 是 否 麻 动 或 停留 在 
同一 水 平 上 。 当 变动 很 小 ,比如 说 就 10 000 复制 而 言 小 于 0. 1, 则 认为 出 现 收 伍 。 
人 们 也 可 同时 考察 几 个 链 。 这 些 采 样 总 是 相关 的 ,但 一 个 重要 问题 是 , 自 相 关 函 数 
会 怎样 快 地 衰落 至 0。 有 时 ,此 问题 不 是 固定 的 ,而 且 它 自然 是 算法 所 固有 的 。 人 
们 还 能 采用 每 1/10 或 每 1/100 观测 值 来 消除 序列 相关 。 

为 检查 吉 布 斯 抽样 器 是 否 收敛 到 目前 情况 下 的 平稳 后 验 分 布 上 ,我 们 计算 从 
每 个 系数 收敛 后 的 后 验 中 获得 的 采样 之 自 相 关系 数 的 前 20 个 。 缺 乏 收敛 会 通过 
从 目标 分 布 中 得 到 的 采样 存在 序列 相关 而 显示 出 来 。 当 复制 次 数 很 少时 , 比如 说 


[1] 原著 中 这 里 为 100 000, 但 应 为 10 000。 一 一 译 者 注 
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1 000 ,在 一 些 情况 下 ,可 以 发 现 , 自 相关 系数 高 达 0. 06。 不 过 , 当 复 制 次 数 为 50 000 
或 更 大 时 ,实际 上 没有 直到 20 阶 的 序列 相关 证 据 , 而 相关 性 会 随 阶 数 而 消失 。 在 
大 多 数 情 况 下 ,估计 值 比 0. 005 更 小 一 些 。 容 易 验 证 ,对 于 N= 二 1 000, 先 验 系数 
对 后 验 具 有 相当 小 的 影响 。 这 种 计算 非常 简单 ,使 用 时 仅 需 花费 几 秒 钟 而 已 。 


13. 7 ”数据 增 广 


有 时 , 言 布 斯 抽样 锅 能 用 于 通过 引 和 人 辅助 变量 而 得 到 的 更 广泛 模型 上 上。 特别 
地 ,这 是 涉及 潜 变 量 的 模型 情况 ,诸如 离散 选择 模型 .截取 与 删 失 模型 ,以 及 后 面 几 
章 将 引信 的 有 限 混 合 模 型 。 

在 纯 量 情况 下 , 潜 因 变量 y* 是 不 可 观测 的 ;相反 ,我 们 仅仅 观测 到 关于 某 个 设 
定 园 数 y 的 y 二 g(y" )。 例 如 ,在 logit 或 probit 模型 中 (参见 第 14 章 ) ,仅仅 可 能 
观测 到 y* 是 正 的 或 负 的 ,在 此 情况 下 ,y= 二 1(y" 盖 0) ,并 且 当 交 二 0 时 ,观测 到 
y 二 1, 而 当 y* 二 0 时 ,观测 到 y 二 0。 

六 变量 的 贝 叶 斯 分 析 , 特别 是 吝 布 斯 抽样 器 的 应 用 , 均 通 过 用 估算 值 C13 
(imputed values) 代 蔡 潜 变量 而 得 以 实施 。 倘 若 我 们 能 依照 观测 到 的 变量 写 出 湾 有 变 
量 的 预测 密度 ,这 一 步 就 可 行 。 添 加 估算 值 就 好 像 它 们 是 观测 到 数据 的 方法 称 为 
数据 增 广 (data augmentation)。( 一 个 例子 是 由 10. 3. 7 节 给 出 的 ,其 中 解释 了 EM 
算法 。) 一 种 次 刻 观 总 归功 于 坦 纳 和 旺 (Tanner and Wong，1987), 即 仅仅 建立 在 已 
观测 到 数据 基础 上 的 后 验 是 难以 处 理 的 ,但 在 数据 增 广 之 后 所 得 到 的 后 验 , 知 利用 
吉 布 斯 抽样 器 ,这 就 常常 容易 处 理 。 

考察 既 依 据 和 耳 接 观测 到 的 变量 y, 又 依据 潜 变 量 y" 所 表述 的 后 验 : 


p(Oly) =| .20 yy fy Iyady (13. 49) 


其 中 ,右边 积分 可 被 解释 成 关于 y 的 平均 运算 。 

类 似 于 EM 方法 ,数据 增 广 涉及 在 估算 步骤 (imputation step) 即 I 步骤 与 后 验 
步骤 (posterior step) 即 P 步 号 之 间 的 循环 。 

在 估算 步 又 ,从 y* 的 完全 条 件 密 度 中 采样 。 这 是 对 出 现在 概率 分 布 中 的 参数 
y 加 以 平均 ,此 概率 分 布 联系 y* 与 y。 其 预测 分 布 是 : 


fly |y) =| foy'ly, Jy) fy) ydy (13. 50) 


给 定 当 前 来 自 p(t01y) 的 采样 ,能 从 f(y' 1y) 中 得 到 采样 ,为 了 获得 m 重新 信 算 yi， 
1 一 ] ,… ,mm, 训 要 重复 该 步 又 nt 次 。 这 就 完成 | 步骤 ， 

给 定 来 自 工 步骤 的 数据 增 广 ,P 步骤 通过 对 pC(81y) 的 当前 近似 更 新 来 实施 ; 因 
而 有 : 


(1] 又 称 为 借 补 值 。 一 一 译 者 注 
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更 新 pt0|y) = = Dp(0ly,y’) (13.51) 
i 二 】 


然后 ,算法 返回 到 1 步 又 。 

当 m 王 1 时 ,此 方法 相当 于 通过 吉 布 斯 抽样 实施 积分 式 (13. 49) 。 若 选取 疡 充 
分 大 , 则 后 验 分 布 就 近似 得 更 好 些 。 把 数据 增 广 方法 应 用 于 缺失 数据 问题 的 扩展 
例子 ,将 在 第 26 章 给 出 。 


13.8 贝 叶 斯 模型 选择 


第 7 章 与 第 8 昔 已 经 研究 了 假设 检验 、 设 定 诊断 以 及 与 源 自 频率 学 派 观 点 的 
模型 比较 问题 。 在 本 节 , 我 们 考察 最 重要 的 工具 一 一 贝 叶 斯 因子 (Bayes factors)， 
运用 它 表 示 贝 叶 斯 分 析 计 算 支 持 零 假设 (模型 ) 证 所 的 效力 。 它 还 可 作为 模型 选择 
的 准则 ,而 不 管 所 考虑 的 内 容 是 舱 入 式 模型 还 是 非 舱 入 式 模 型 对 。 在 经 济 计量 学 
文献 中 , 泽 尔 纳 (Zellner，1971，1978) 已 经 提供 了 模型 选择 内 容 的 早期 讨论 。 我 们 
这 里 的 研究 是 建立 在 卡 斯 和 拉夫 特 里 (Kass and Raftery，1995) 的 评述 性 论文 基 
础 上 。 

用 y 表示 数据 ,而 所 考虑 的 两 个 假设 可 能 是 非 骨 套 的 ,分 别 用 陕 | 与 日 ; 表示 。 
两 个 假设 的 先 验 概率 是 PrLH | 与 Pr 互 , |]。 相 对 应 的 数据 生成 过 程 是 PrLy| Hl] 
与 Prly| H; j= 二 1 一 Prly| Hi |]。 模 型 的 先 验 概 率 , 通 过 反映 在 似 然 中 样本 证 据 转换 
成 后 验 概率 。 由 由 时 斯 定理 知 


PryHjPriH| 5 
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以 及 后 验 优势 比 (posterior odds ratio ) : 


Pr| 万 ， ly _PriylH PLD p Pr| 五; | 
PrLH;|ly] Prly|H; |PrLH;] ~ “PrLH,| 
其 中 ,Bi 二 PrLy| Hj]/PrLy|H;j, 称 为 贝 叶 斯 因子 。 当 后 验 优 势 比 大 于 1 时 , 假 
设 1 就 更 可 取 。 式 (13.53) 的 右边 将 后 验 优势 比 表 述 成 贝 叶 斯 因子 与 先 验 优势 比 
的 乘积 。 如 果 两 个 先 验 模型 相等 ,因而 PrL EN j 王 Pr[L 互 : | , 贝 叶 斯 因子 等 于 后 验 优 
执 比 ,这 支持 了 五) 。 大 涉及 几 个 假设 , 则 贝 叶 斯 因子 用 于 这 些 假设 的 所 有 序 对 的 
计算 。 即 使 假设 不 是 舱 套 的 ,也 可 定义 贝 叶 斯 因子 。 
贝 叶 斯 因子 具有 似 然 比 形式 。 它 依赖 于 未 知 参 数 , 用 问 量 bf 与 9 表示 未 知 
参数 ,它们 可 通过 在 参数 空间 上 关于 先 验 进行 平均 或 积分 加 以 剔除 ,所 以 : 


Pr| 互 。， yj 二 








(13. 53) 


prfy| H,] = |Prry| 0,,H, Ix(O,|Hi)d0, k= 1,2 (13. 54) 


由 13. 2.5 市 憩 , 式 (13. 54) 提 供 了 给 定 先 验 分 布 时 数据 的 边缘 与 预测 概率 。 

一 种 新 的 困难 是 ,这 个 表达 式 依赖 于 出 现在 似 然 中 的 所 有 常 值 。 当 计算 后 验 
时 ,可 和 忽略 这 些 常 值 。 但 是 ,计算 贝 叶 斯 因子 时 却 需 要 它们 。 如 果 式 (13. 54) 积 分 
没有 可 利用 的 显 性 解 ,例如 ,重要 抽样 ,就 要 求 运 用 数值 计算 。 卡 斯 和 拉夫 特 里 


(Kass and Raftery，1995) 曾 经 评论 到 , 贝 叶 斯 因子 计算 方面 存在 大 量 文 献 ,这 里 我 
们 将 不 去 继续 讨论 这 一 内 容 。 注 意 到 ,存在 某 些 对 由 叶 斯 因子 的 渐 近 近似 ,是 很 容 
易 利 用 来 目 对 似 然 求 极 大 值 的 软件 输出 加 以 计算 。 

按照 反对 互 ! 1 的 证 据 , 可 对 贝 叶 斯 因子 给 出 解释 ， 将 此 与 另 一 种 理论 相对 
比 , 贝 叶 斯 因子 是 由 数据 提供 支持 、 由 统计 模型 表述 的 一 种 科学 理论 的 证 据 汇 总 ” 
[ 卡 斯 和 拉夫 特 里 (Kass and Raftery,1995, 第 777 页 ) |]。 在 频率 学 派 分 析 中 ,两 倍 
对 数 似 然 比 是 经 常 使 用 的 量 。 类 似 地 ,两 倍 的 贝 叶 斯 因子 对 数 作 为 计算 证 据 时 所 
使 用 的 准则 。 卡 斯 和 拉夫 特 里 阐述 了 ,反对 零 假设 证 据 效 力 的 下 述 分 类 ,这 是 在 他 
们 自己 研究 时 确立 的 有 用 工具 ,参见 表 13. 4。 


表 13.4 对 贝 叶 斯 因子 的 解释 


贝 叶 斯 因子 2 ln( Bi;) 对 应 于 Hl 的 证 据 
1~3 0 一 2 鹃 
3 一 20 2 一 6 正 
20~150 6 一 10 到 
>150 >10 非常 强 


假设 正在 比较 的 两 个 模型 是 嵌 套 的 。 用 H。 表示 约束 模型 ,而 用 Hi 表示 无 
约束 模型 。 利 用 后 验 优势 比 对 两 个 模型 进行 成 对 比较 ,正如 前 面 所 证 明 的 ,需要 计 
算 员 叶 斯 因子 。 对 零 假 设 模型 的 页 叶 斯 因子 可 定义 成 : 

_m(y| H.,) 

ml(y|H,) 
其 中 ,m(y|H;) 表 示 模 型 设 定 日 ) 的 边缘 似 然 。 行 模型 了 H, 与 日; 都 是 舱 套 的 , 则 
采用 Savage-Dickey 密度 比方 法 [参见 威 迪 内 里 和 沃 世 (Verdinelli and Wasser- 
man，1995) 计算 此 贝 叶 斯 因子 。 

不 管 模型 是 嵌 套 的 ,还 是 非 败 套 的 ,由 奇 布 (Chib，1995) 提 出 的 重要 思想 用 于 
计算 贝 叶 斯 因子 , 比 早期 文献 所 建议 的 计算 方法 更 为 简便 。 他 的 方法 是 由 两 种 有 
关 思 想 构 成 的 。 对 于 给 定 的 模型 Hi 来 说 ,首先 将 边缘 密度 m(y) 重 新 写成 一 个 
比值 : 


Bo 





_ f(y|0)x(0) 
x(O|y) 


其 中 ,分 子 是 密度 (包括 常 值 ) 与 先 验 的 乘积 ,而 分 母 是 6 的 后 验 密 度 。 这 个 结 且 是 
式 (13. 1) 中 项 的 重新 ,限制 条 件 是 我 们 使 用 记号 mx(y) 代 替 f(y) 或 较 早 使 用 的 
Pr[y| Hi ]; 它 仅仅 表明 ,边缘 密度 是 一 个 正规 化 的 常 值 。 其 次 ,在 成 功 应 用 MCMC 
算法 之 后 ,我们 将 在 给 定点 686 上 利用 后 验 密度 估计 zx(01y) 的 蒙特 卡 罗 估 计 值 。 巾 
此 可 得 : 


m(y) 


Inm(y)=1n f(y|0) Tln x(0)—1n x Oly) (13. 55) 


51] 原著 中 此 处 为 昌 1 ,应 为 H2。 一 一 详 者 注 


了 7 贝 叶 斯 方法 


= A 


因此 ,给 定 右边 一 些 项 的 估计 值 ,边缘 密度 能 很 容易 地 利用 来 自 吉 布 斯 抽样 器 输出 
加 以 计算 。 然 而 ,该 方法 被 奇 布 和 叶 利 阿 泽 科 夫 (Chib and Jeliazkon，2001) 推 广 
到 输出 是 由 梅 特 波 罗 利 斯 一 黑 斯 廷 斯 算法 给 出 的 情况 。 

在 复杂 且 高 度 参数 化 的 模型 中 ,对 贝 叶 斯 因子 计算 是 一 件 不 简单 的 事 。 不 过 ， 
可 以 证 明 , 施 瓦 次 准则 也 是 著名 的 贝 叶 斯 信息 准则 (参见 8. 5 节 ) , 它 会 给 出 对 贝 叶 
斯 因子 对 数 的 大 臻 近似。 回顾 ,BIC== 一 21n L(6w ) 十 In Ng。 当 可 以 利用 对 数 似 
然 值 时 ,这 很 容易 计算 出 来 。 

由 式 (13. 52) 知 ,很 明显 ,模型 的 先 验 概 率 比 在 计算 反对 零 假 设 证 据 中 起 作用 。 
在 许多 情况 下 ,人 研究 者 很 少 会 继续 指派 这 些 概 率 。 此 种 考虑 在 研究 贝 叶 斯 因子 对 
先 验 模型 概率 敏感 性 的 文献 中 受到 某 种 关注 。 


13.9 应 用 研究 


在 贝 叶 斯 文献 中 ,马尔 可 夫 链 运用 现今 已 成 为 主流 。 因 为 该 方法 是 密集 计算 ， 
好 的 软件 包 是 基础 性 的 。 在 写作 成 书 时 , WinBUGS 软件 包 , 即 BUGS( 利 用 吉 布 斯 
抽样 进行 贝 叶 斯 推断 ) 的 最 新 版 本 ,受到 广泛 推荐 ,而 且 发 现 , 它 对 分 层 模 型 和 缺失 
数 问题 特别 有 用 。 在 BUGS 网 站 上 就 可 以 利用 它 。 有 关 其 他 贝 叶 斯 软件 包 的 更 详 
细 信 息 ,参见 盖 默 晶 (Gamerman,， 1997, 5.6 节 ) 。 

将 多 长 的 连续 不 断 的 马尔 可 夫 链 用 于 执行 的 问题 是 研究 中 的 一 个 活跃 领域 。 
需要 提 及 的 是 ,一 些 诊断 检查 可 用 于 判断 是 否 收敛 ,但 是 它们 常常 不 具有 普 适 的 可 
应 用 性 。 卡 佩 和 罗伯特 (Cappe and Robert，2000) 曾 提供 了 包括 停止 规则 的 实施 
问题 的 一 个 回顾 。 显 然 , 条 件 分 布 的 复杂 性 是 一 个 重要 因素 。 源 自 马尔 可 夫 的 纯 
量 参数 输出 图 形 是 证 实 收敛 的 可 视 化 吸引 人 的 方法 ,但 可 利用 一 些 更 正式 的 方法 
[ 格 韦 克 (Geweke，1992) ]。 另 一 个 由 格 尔 曼 和 和 鲁 宾 (Gelman and Rubin，1992) 给 
出 的 建议 是 使 用 多 重 (平行 的 ) 吉 布 斯 抽样 器 ,每 一 个 都 可 从 不 同 的 初始 值 开始 ,看 
看 各 种 不 同 的 链 是 否 收 敛 到 同样 的 后 验 分 布 。 泽 尔 纳 和 敏 (Zellner and Min， 
1995) 曾 提出 几 种 收敛 准则 ,者 后 验 分 布 能 以 显 性 方式 写 出 ,就 运用 它们 。 


13. 10 ”文献 注释 


有 几 部 优秀 的 长 篇 论著 强调 了 贝 叶 斯 分 析 现 代 计 算 方 法 ,这 些 著作 包括 盖 黑 
又 (Gamerman，1997) 与 格 尔 曙 等 人 (Gelman et al. ，1995) 的 书 。 相 对 容易 入 门 的 
研究 著作 是 ,吉尔 (Gill，2002) . 库 普 (Koop，2003) . 兰 开 斯 特 (Lancaster，2004) 的 
书 。 库 普 曾 痔 述 许多 标准 非 线 性 横 截 面 模型 与 面板 数据 的 一 些 贝 叶 斯 方法 。 而 泽 
尔 纳 (Zellner，1971) 与 利 黑 (Leamer，1978) 扎 写 的 书 仍 是 有 价值 结果 的 来 源 。 

13.2 斯 蒂 格 勒 (Stigler，1986) 提 供 了 贝 叶 斯 (Bayes，1764) 研 究 工 作 的 良好 
解释 。 贝 叶 斯 第 一 次 阐述 了 概率 的 某 些 性 质 , 即 著 名 的 PrLA|1Bj] 王 PrLANMBjJ/ 
Pr[ Bj]]。 然 后 , 贝 叶 斯 利用 这 一 结果 来 获得 后 验 概率 Pr[L a 过 9 二 51yj, 其 中 ,a 与 5 
第 设 定 为 有 界 的 ,y 表示 NN 个 二 项 试验 的 成 功 次 数 , 而 9 表示 每 次 成 功 的 未 知 概 


率 。 贝 叶 斯 选择 均匀 先 验 ,在 此 情况 下 ,后 验 密 度 f(9|1y) ec f(y19)。 贝 叶 斯 的 例 
于 是 敲 于 挑战 性 的 ,因为 它 没 能 准确 计算 后 验 概 率 , 它 涉及 不 完全 伽 玛 ,直到 20 世 
纪 才 把 它 列 成 表 。 最 初 , 册 叶 斯 论文 被 人 们 忽略 了 。 归 功 于 拉 普 拉 斯 和 其 他 学 者 
的 更 为 广泛 使 用 的 方法 是 逆 概 率 方法 , 即 设 f(0|y) cc f(y10)。 这 些 方 法 可 由 极 大 
似 然 法 来 代替 , 极 大 似 然 法 由 费 希 尔 (Fisher，19227 引 进 , 他 的 论文 直接 批评 了 中 
叶 斯 方法 及 逆 概 座 方 法 。 

海德 和 约翰 斯 通 (Heyde and Johnstone，1979) 已 经 讨论 有 关 收 伍 到 后 验 正 态 
性 的 正则 条 件 。 特 雷 恩 (CTrain，2003) 提 供 了 所 谓 的 贝 伦 斯 坦 一 冯 ， 米 泽 斯 定理 
的 优秀 但 稍 欠 正式 的 处 理 ，。 

13.3 泽 尔 纳 (Zellner，1971) 与 利 默 (Leamer，1978) 均 是 线性 回归 贝 叶 斯 分 
析 的 优秀 来 源 。 

13.4 格 书 元 (Geweke，1989) 与 格 韦 克 和 基 忆 (Geweke and Keane，2001) 均 
是 关于 聚 特 卡 罗 积 分 的 珍贵 的 参考 文献 。 

13.5 卡 窗 拉 和 乔治 (Casella and George，1992) 曾 经 提供 吉 布 斯 抽样 器 的 解 
释 性 处 理 。 由 奇 布 及 其 合作 者 以 及 格 韦 克 及 其 合作 者 撰写 的 大 量 论文 ,涵盖 了 微 
观 经 济 计量 学 中 许多 有 意思 的 专题 。 奇 布 和 格林 伯 格 (Chib and Greenberg， 
1996, 第 3 节 ) 兽 提供 MCMC 的 一 系列 应 用 ,包括 看 似 不 相关 回归 模型 以 及 Tobit 
模型 和 probit 模型 。 在 后 者 情况 下 ,他 们 证 明了 由 于 把 吉 布 斯 抽样 与 数据 增 广 结 
合 起 来 的 方法 而 引起 的 计算 简化 。 数 据 增 广 可 用 于 处 理 为 了 研究 许多 删 失 模型 与 
离散 选择 模型 中 日 然 出 现 的 基本 不 可 观测 变量 而 引信 的 淤 变量 问题 。 奇 布 (Chib， 
2001) 提 供 了 包括 许多 导致 线性 与 非 线 性 模型 的 MCMC 算法 的 详细 而 最 新 的 综 
述 。 格 韦 元 和 基 恩 (Geweke and Keane，2000) 专 门 研 究 了 积分 方法 ;其 内 容 既 涵 
盖 贝 叶 斯 专题 ,又 涵盖 非 贝 叶 斯 专题 。 


习题 


13-1 证 明 , 如 果 BG 一 NE Ai | ,同时 4 一 Gammala/2, a/2j, 那 么 B 的 
无 条 件 分 布 是 具有 参数 (4, 也 ,au) 的 多 元 变量 1 分 布 。 

13-2 [ 源 目 奇 布 (Chib, 1992) 。| 考 察 删 失 回归 或 Tobit 模型 (参见 16. 3 
节 ) ,其 中 ,y 一 xXBG 十 ss 一 iid NM[0, c3], 而 且 当 >0 时 ,y 是 可 观测 的 , 当 
y" 全 0 时 ,y 是 不 可 观测 的 ( 删 失 的 )。 关 于 y, 存 在 Ni 个 删 失 可 观测 值 , 并 用 > 意 
指 它们 。 引 入 对 应 于 删 失 观测 值 的 潜 变 量 z, 使 得 如 果 第 i 个 观测 值 属于 删 失 集合 ， 
则 z;< 过 0。 数 据 增 广 方法 可 用 于 推导 潜 变 量 一 oo 过 z; 二 0, 独 立 随 机 变量 的 集合 分 
布 作为 截取 正 态 分 布 , 其 支 集 为 (一 0,0), 而 pdf $C(z;|yi,B,o:)/(1 一 @®@(x;B /0))， 
一 oo 过 zi; 过 0, 其 中 ,4 与 针 分 别 为 正 态 的 pdf 与 cdf。 运 用 B8 的 正 态 先 验 以 及 go“ 的 
伽 玛 先 验 。 

(a) 证 明 , 设 定 关于 z;、6B 以 及 oc 悦 的 完全 条 件 集合 是 可 行 的 。 

(b) 运用 (a) 部 分 的 结果 ,概述 模拟 z;、B 以 及 a “的 吉 布 斯 算法 。 

(c) 解释 如 何 获得 8 与 c“ 的 合适 初始 值 。 





线性 3 2 交 量 视 开 过 类 模型 是 过 过 因 变 量 取 值 范围 来 定义 。 涉及 
的 专 国人 包括 ;一 :二 值 数 据 、 多 项 式 数据 、 持 续 期 限 数据 和 计数 数据 ， 以 及 对 删 
除 、 截取 以 及 样本 选择 的 复杂 情况 的 研究 。 第 四 部 分 的 核 已 基础 是 ,最 小 二 

z 乘法 与 极 大 似 然 估 计 。 

”第 二 章 和 第 15 章 涵盖 二 值 数据 与 多 项 式 数 据 , 它 们 是 离散 结果 及 离 






散 选 择 分 析 中 的 标准 形式 ; 极 大 似 然 方法 占据 主导 地 位 。 在 这 些 模型 中 ， 
对 条 件 概率 进行 各 种 参数 化 会 产生 各 类 不 同 模型 ,譬如 著名 的 logit 模型 与 
probit 模型 ,这 两 个 是 得 到 公认 的 。 最 近 文献 关注 含有 更 灵活 的 条 件 概率 
画 数 形式 的 约束 较 少 的 建 模 , 并 且 可 并 人 不 可 观测 异 质 性 。 这 些 目 标 泊 





参数 方法 以 及 基于 模拟 估计 方法 的 运用 。 
出 失 、 截取 或 





者 样本 选择 组 成 了 第 16 章 分 析 的 几 种 重要 模型 类 型 建 
的 Tobit 模型 是 这 方面 文献 的 核心 ,但 它 的 估计 及 推断 却 依赖 于 强 








分 布设， 以 便 获得 一 - 致 估计。 我 们 还 考察 一 些 较 为 新 颖 的 半 参 数 方法 ， 这 





| 第 1 17 泪 章 ~ 第 19 章 考察 持续 期 限 模型， 关注 内 容 既 有 时 期 长 度 的 确定 ， 
clr hn en lop otto 一 个 状态 风险 率 的 
有 吴 有 侈 让 公式 










型 。 et 18 章 涵盖 了 不 可 观测 异 质 性 的 大 量 模型 公式 及 解释 ， 状态 相依 性 
入 久 异 拆 性 作为 时 期 平均 长 和 的 决定 因 妈 ， 这 个 方面 的 相对 重要 性 
是 一 个 中 心 问题 ,对 其 求解 会 产生 有 关 可 供 选 择 建 模 方法 的 基本 问题 ， 委 





本 EE 20 ) 章 衣 六 健康 经 济 学 中 ] 常 普遍 的 事件 计数 类 型 分 析 。 在 计数 数 


其 限 模型 之 间 ,存在 众多 紧密 联系 和 平行 关系 ,因为 它们 在 随 






了 机 过 各 让 拥有 共同 基础 ”我 们 分 析 了 广泛 运用 的 油 检 与 负 二 项 式 回归 模型 
以 及 一 些 重要 变形 诸如 两 部 分 或 围栏 模型 、 零 膨胀 模型 . 潜 类 型 模型 和 内 


| | E | Wo 5 模型 所 b 这 些 模 开 均 迎合 事件 过 程 的 各 种 不 同方 面 。 
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14.1 5 引 论 


离散 结果 (discrete outcome) 或 定性 响应 模型 (qualitative response models) 是 指 
因 变 量 即 关注 结果 落 入 mm 个 互 不 相交 类 型 之 一 的 模型 。 通 常 不 存在 关于 分 类 的 
一 个 自然 排序 。 例 如 ,对 工人 职业 进行 分 类 化 处 理 。 

本 章 考察 最 简单 的 二 值 结 果 (binary outcomes) 情 况 ,其 中 存在 两 种 可 能 结果 。 
一 些 例子 包括 ,一 个 人 是 否 就 业 ,消费 者 是 和 否 购买 。 对 二 值 结果 进行 建 模 非 常 简 
单 , 而 且 估 计 通 常 利用 极 大 似 然 法 ,因为 数据 分 布 必须 由 贝 努 利 模 型 来 定义 。 如 果 
一 个 结果 的 概率 等 于 p, 那 么 另 一 个 结果 的 概率 必 是 (1 一 p)。 对 于 一 些 回归 应 用 
来 说 ,概率 p 将 随 不 同 个 体 而 变化 ,作为 回归 元 的 函数 。 两 个 标准 的 二 值 结果 模 
型 , 即 logit 模型 与 probit 模型 , 设 定 此 概率 的 不 同 的 函数 形式 作为 回归 元 的 函数 。 
这 两 个 佑 计量 之 间 的 差异 在 性 质 上 类 似 , 即 在 最 小 二 乘 回归 中 使 用 不 同 函 数 形式 
的 条 件 均值 。 

14. 2 给 出 一 个 数据 例子 。14. 3 节 对 标准 模型 包括 logit 与 brobit 模型 的 统 
计 结 论 做 一 个 概述 。14. 4 节 闸 述 起 因 于 基本 漆 变 量 的 二 值 结果 模型 。 将 上 述 内 
容 轻而易举 地 推广 到 多 项 式 模型 (参见 第 15 章 ) 以 及 关于 删 失 或 选取 样本 的 模型 
(参见 第 16 章 ) 时 ,这 一 公式 极为 有 用 。14. 5 节 详 细 曾 述 , 当 结 果 之 一 被 故意 过 度 
抽样 时 ,对 标准 估计 方法 进行 必要 的 修正 。 加 总 问题 则 在 14. 6 节 考 察 。14. 7 节 
讨论 对 概率 p 模型 施加 很 少 结构 的 二 值 结果 模 型 的 半 参 数 方 法 。 


14.2 二 值 结果 例子 :钓鱼 方式 的 选择 
本 节 对 租 船 钓鱼 与 码头 钓鱼 之 间 做 选择 加 以 建 模 。 其 因 变 量 是 一 个 二 值 变 
量 ,满足 ， 


_ 1， 车 租 船 钓鱼 
”i 10， 车 码头 钓鱼 


其 中 ,为 了 简单 起 见 , 选 取 值 为 1 与 0。 单 个 解释 变量 是 x; 二 ln relp; 二 ln(relp;), 这 
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里 ,relp 表示 租 船 钓鱼 价格 与 码头 钓鱼 价格 的 比值 ,因而 
Ti 一 |nrelp; 一 In (priceag.;/ pricema.;) 


租 船 钓鱼 与 码头 钓鱼 的 价格 都 会 因 各 种 因素 导致 随 不 同 个 体 而 变化 ,例如 ,学 钓鱼 
的 起 点 千差万别 。 可 以 认为 , 租 船 钓鱼 概率 将 随 其 相对 价格 提高 而 减少 。 

各 种 数据 已 由 表 14. 1 概括 。630 名 个 体 样本 是 15. 2 节 中 以 较 详细 方式 表述 
数据 的 子 集 , 那 里 考察 四 种 不 同 的 钓鱼 方式 以 及 另外 的 一 些 回 归 元 。 样 本 的 71. 
7% 个 体 选择 租 船 钓 色 。 对 于 选取 租 船 钓鱼 的 人 来 说 ,平均 而 言 , 租 船 钓鱼 费用 小 
于 码头 钓鱼 费用 ,因为 75 美元 过 121 美元 。 对 于 选取 码头 钓鱼 的 人 来 说 ,费用 正 
好 相反 。 所 以 ,看 起 来 价格 具有 预期 效应 。 


表 14.1 钓鱼 方式 选择 :数据 概述 


子 样本 平均 值 
变量 y 二 1 租 骼 y 一 0 码头 所 有 y 
租 船 价格 (美元 ) 75 110 85 
石头 价格 (美元 ) 121 3] 95 
ln relp 一 0. 264 1. 643 0. 275 
样本 概率 0. 717 0. 283 1. 000 
观测 值 452 178 630 


yi 对 z 的 OLS 回归 (OLS regression) 忽 略 因 变量 的 离散 性 ,并 没有 把 预测 概 
率 限制 在 0 与 1 之 间 。 
一 种 更 合适 的 模型 是 logit 模型 (logit model) (参见 14. 3. 4 节 ), 它 设 定 : 


一 pr 一 1 1 exp(B TTB) 
万， Pr| y, 1|zx, | 1 Texp(p 十 Bc) 


很 明显 ,这 就 确保 了 0p; 二 1。 运 用 极 大 似 然 估计 (参见 14. 3. 3 节 ) 得 到 参数 估计 
值 ,这 已 由 表 14. 2 中 第 一 列 给 出 。 该 logit 模型 蕴含 的 边际 效应 等 于 : 


dz _ exp(A 十 Bx;) 
dx; (1 十 exp(p 十 记过 7 名 


表 14.2 钓鱼 方式 选择 :iogit 估计 值 与 probit 估计 值 : 


回归 元 logit probit 模型 OLS 
常 值 2. 053 1]. 194 0. 784 
(12. 15) (13. 34) (65. 58) 
ln relp 一 1. 823 一 1.056 一 0. 243 
(一 12.61) (一 13. 87) (一 28. 15) 

—lnL 一 206. 83 一 204. 41 一 
伪 R* 0. 449 0U. 405 0. 463 


” 若 租 船 钓鱼 , 则 因 变 量 y= 二 1; 知 码头 钓鱼 , 则 y= 二 0 。 回 归 元 x 二 ln repl 表示 租 船 钓鱼 价格 相对 于 码头 
钩 鱼 价格 的 自然 对 数 。 插 号 中 含有 :统计 量 的 和 截 距 与 儿 率 参数 估计 均 来 自 logit 与 probit 模型 的 ML 估计 ， 
以 及 源 自 OLS 估计 。 
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由 于 Bz, ioor 过 0, 正如 人 们 所 料 , 可 得 dz /dri<0。 边 际 效应 的 真实 数量 会 随 计算 
点 Ti 不 同 而 变化 (参见 14. 3. 2 节 )。 尽 管 没有 涉及 其 他 一 些 模型 ,但 对 logit 模型 
的 近似 是 dp;/dzxi 二 3(1 一 3) 二 一 0. 370。 不 过 ,OLS 回归 却 给 出 了 直接 估计 值 
一 0. 243。 
一 种 可 供 选 择 的 模型 是 probit 模型 (probit model) (参见 14. 3. 5 节 ) ,该 模型 
设 定 : 
pi=Pr| y;=1|z;|=® (BB,z;) 


其 中 ,@() 表 示 标 准 正 态 累积 分 布 函 数 ,因此 户 = | “(2x)"12e2dz。ML 系 


数 已 由 表 14. 2 中 的 第 2 列 给 出 ,而 且 显 著 地 不 同 于 logit 系数 。 由 于 不 同 设 定 被 
用 于 估计 之 中 , 故 其 系数 不 可 对 比 。 这 类 似 于 我 们 不 能 对 具有 条 件 均 值 x 6 的 模 
型 与 具有 条 件 均值 exp(x 6B ) 的 模型 进行 比较 一 样 。 对 于 probit 模型 来 说 ,dp;/ 
dzxi;— $B 十 Tip ,其 中 ,$( *) 表 示 标 准 正 态 密度 。 由 于 Bopgoar<0, 所 以 再 次 得 
出 ,Cdpi1]dTi< 0O。 

虽然 对 于 不 同 模型 来 说 ,斜率 系数 一 定 会 各 不 一 样 ,可 是 由 表 14. 2 知 , 统 计量 
是 相似 的 , 且 都 是 相当 大 的 。probit 模型 的 对 数 似 然 是 2. 42, 大 于 logit 对 数 似 然 ， 
由 于 两 个 模型 使 用 相同 的 参数 值 ,所 以 这 支持 了 probit 模型 。 在 许多 其 他 例子 中 ， 
就 不 同 模型 来 说 ,ln 上 的 差异 会 很 小 。 可 将 源 自 三 个 模型 的 预测 概率 作为 x 的 函 
数 , 画 在 图 14.1 中 。 对 于 OLS, 我 们 假定 PrLy 一 1] [zj 一 所 二 Bx; 关于 Ti 是 线性 
的 ,而 logit 与 probit 的 非 线 性 函数 基本 上 是 等 价 的 。 


不 同 模型 的 预测 概率 





相对 价格 的 日 然 对 数 
14.1 租 船 钓鱼 ; 当 单 个 回归 元 是 相对 价格 自然 对 数 时 ,来 自 logit 与 probit 模型 的 预测 概率 
以 及 OLS 预测 。 为 了 可 读 性 ,在 三 动 之 后 , 画 出 1 或 0 的 实际 结果 。 数 据 由 620 位 个 
体 组 成 。 


14.3 logit 模型 与 probit 模型 


现在 给 出 这 些 模型 的 更 为 正式 的 理论 。 我 们 将 统计 学 引 论 中 掷 硬币 的 二 值 结 
果 , 直 接 推广 到 将 成 功 概率 建 模 成 依赖 回归 元 的 情况 。 两 种 普遍 运用 的 参数 化 方 
法 都 会 产生 logit 与 probit 模型 。 若 利用 潜 变 量 , 则 关于 这 些 参 数 化 的 动机 推 壕 到 
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14. 4 节 加 以 阐述 。 


14. 3.1 一 航 二 估 结 困 模 型 
对 于 二 值 结果 来 说 , 因 变 量 y 取 两 个 值 之 一 。 我 们 设 : 


1， 以 概率 p 


为 了 不 失 一 般 性 ,在 设置 值 为 1 与 0 的 背景 下 ,需要 建 模 的 内 容 是 p, 即 决定 
结果 的 概率 。 在 统计 学 引 论 中 , 该 模型 被 表述 成 掷 硬币 的 结果 ,其 中 ,正面 向 上 导 
致 y 二 1 且 以 概率 pp 发生。 

回归 模型 通过 对 概率 p 进行 参数 化 ,使 其 依赖 于 回归 元 x 和 KX1 维 参 数 癌 
量 6 而 得 以 建立 。 普 这 使 用 的 模型 是 具有 条 件 概 率 (conditional probability) 的 单 
指标 形式 ,条 件 概率 由 


VY 一 


办 三 Pr[ y;=1|x]=F(x;B) (14. 1) 


给 出 ,其 中 ,下 () 表 示 设 定 图 数 。 为 了 确保 0 三 p 筷 1, 将 FC ) 设 定 成 累积 分 布 星 数 
是 很 自然 的 。 

表 14. 3 给 出 最 普遍 使 用 的 二 值 结 果 模 型 。 当 F(:) 表 示人 逮 辑 斯 蒂 分 布 时 ,得 
出 logit 模型 (131(logit model) , 而 当下 (表示 标准 正 态 累 积分 布 函数 时 ,得 到 
probit 模型 [人 i(probit modeli) 。 注 意 到 ,如 果 F(。) 是 cdf ,那么 这 个 cdf 仅仅 用 于 
对 参数 p 进行 建 模 ,日 不 表示 y 自身 的 cdf。 当 KE(.) 表 示 极 值 分 布 的 cdf 时 ,就 产 
生 极 少 运 用 的 互补 双 对 数 回归 模型 (complementary log-log model) 。 它 不 同 于 其 他 
一 些 模型 ,因为 它 关 于 0 是 非 对 称 的 ,同时 当 结 果 之 一 极 少 发 生 时 才 会 使 用 它 。 线 
性 概率 模型 (linear probability model) 不 使 用 cdf ,反而 设 定 p, 二 x;6B。 


表 14.3 二 值 结果 数据 :一 些 常 用 模型 





模型 概率 (pp 二 Pr| y 一 11xj) 边际 效应 Cap/az) 
logit A(XB) = A(x 8B)L1—A(xB)]B 
x/3 
probit P(x) 一 | $dz $x GD)B， 
互补 双 对 数 回 归 ”CCx8) 一 1 一 exp( 一 exp(X 9)) exp( 一 exp(x B))exp(x B)8 
线性 概率 xB bi 
14. 3.2 廊 奈 磁 应 


关注 内 容 是 回归 元 的 变化 对 y 王 1 的 条 件 概 率 的 边际 效应 (marginal effect)， 
对 于 一 般 概率 模型 (14. 1) 来 说 ,假定 第 7 个 回归 元 变化 是 连续 的 ,得 到 : 


[12D 又 称 为 对 数 单 位 模型 。 一 一 译 者 注 
C2] 又 称 为 概率 单位 模型 。 一 一 译 者 注 
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9 Pr| y;—1|x,| 
Ci 
其 中 ,下 (z) 王 9FGz)/az。 正 如 任何 非 线 性 模型 一 样 ,边际 效应 会 随 计 算 点 x; 不 同 
而 不 同 ,同时 因 下 (.) 的 不 同 选取 而 千差万别 。 表 14. 3 的 最 后 一 列 给 出 常用 二 值 
结果 模型 的 边际 效应 。 

非 线 性 模型 的 边际 效应 已 在 5. 2. 4 节 讨 论 过 。 给 定 特定 模型 ,存在 几 种 计算 
平均 边际 效应 的 方法 。 一 种 最 好 的 方法 是 ,使 用 N 7!';F' (xiB)B;, 即 边际 效应 的 
样本 平均 。 不 过 ,一 些 程序 在 回归 元 的 样本 均值 处 加 以 计算 , 即 已 CY B)B;。 前 面 
构造 的 测量 是 在 5 处 , 即 y 的 样本 均值 处 进行 计算 ,所 以 Fi (x 8)=y 且 F(x GD) 一 
(FT1(y))。 对 logit 模型 来 说 ,尤其 简单 ,从 而 得 到 估计 边际 效应 3(1 一 3)p。 
对 于 特定 模型 的 进一步 讨论 ,将 在 14. 3. 4 节 至 14. 3.7 节 给 出 。 

然而 ,许多 研究 只 报告 回归 系数 。 标 准 的 二 值 模型 是 单 指 标 模型 ,因此 ,两 个 
不 同 回归 元 的 系数 之 比 等 于 其 边际 效应 之 比 。 由 于 下 (.) 盖 0, 所 以 系数 符号 就 给 
出 边际 效应 的 符号 。 系 数 能 用 于 获得 边际 效应 的 上 界 。 对 于 logit 模型 来 说 ， 
9p/9z; 志 0. 25B; ,由 于 A(xB)(1 一 A(xB)) 志 0.25, 所 以 当 Al(xB) 一 0.5 是 xB= 
0 时 达到 最 大 值 。 对 于 probit 模型 来 说 ,ap/az 委 0. 4B; ,由 于 $C(xB) 志 1/ V2x 二 
0.4, 当 中 (xXB8)= 王 0.5 且 x8=0 时 ,达到 最 大 值 。 


14.3.3 ML 估计 


考察 已 知 样本 (Cy; ,xX;) 时 的 估计 间 题 ,1 一 1,…, NN, 其 中 假定 对 于 不 同 i 具 有 独 
立 性 。 结 论 是 针对 式 (14. 1) 定 义 p; 给 出 的 ,对 logit 与 probit 设 定 的 专门 研究 则 
稍 后 给 出 。 

一 般 二 值 结果 模型 的 MLE 

结果 服从 贝 努 利 分 布 , 而 二 项 式 分 布 仅仅 是 含有 一 种 试验 的 情况 。 就 y; 密度 
而 言 ,一 种 非常 方便 的 简洁 记号 ,或 更 正式 地 讲 , 其 概率 质量 肾 数 (probability mass 
function) 是 : 


=F (x8)B; (14. 2) 


flyilx) = (mp) », y=0,1 (14. 3) 


其 中 ,p, 二 F(xiB)。 从 而 ,得 到 概率 p; 与 (1 一 pi), 这 是 因为 Al) 一 和 娟 (1 一 加 "一 
Pp; 而 f(0)=p (lp) =1— p。 

由 密度 (14. 3) 得 出 ,对 数 密度 ln f(y;) 一 yi ln pi 十 (1 一 yD) ln(1 一 pi;)。 给 定 对 
应 于 不 同 ; 的 独立 性 且 关 于 p; 的 模型 式 (14. 1) ,对 数 似 然 函数 是 : 


N 
[Lv(B) = > {yi ln F(xB) + 0 omy)n(l— F(xB))) (14. 4) 
;一 ] 
求 关于 6 的 导数 ,得 出 MLE mr 是 


> (FFx -二 SF/x |}= 


i 二] 





的 解 ,其 中 F,=F(x8),F=F (x;[B), 而 F(z)=9aF(z)/9xz, 一 日 对 含有 共同 分 
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苹 F;(1 一 F;) 的 分 式 进 行 变 换 , 同 时 加 以 简化 ,得 到 ML 一 阶 条 件 : 
N / 
SB) px gx 一 0 (14. 5) 
1= |] 


F(X) (1 — Fx, )) 

尽管 Bar 没有 显 式 解 ,但 牛顿 一 拉夫 森 选 代 法 通常 很 快 就 收敛 ,因为 至 少 对 probit 
与 logit 模型 来 说 ,对 数 似 然 均 是 全 局 四 的 。 

MLE 的 一 致 性 

夺 已 知 x 时 y 的 条 件 密度 被 正确 地 设 定 , 则 MLE 是 一 致 的 (consistent) 。 由 于 
此 处 密度 必 是 贝 努 利 密 度 , 所 以 唯一 可 能 的 错误 设 定 是 , 贝 努 利 概率 被 错误 设 定 。 
因此 , 当 p; 寺 F(x%B) 时 ,MLE 是 一 致 的 ,否则 是 非 一 致 的 。 

更 正式 地 讲 , 注 意 到 ,二 值 数据 ELyj] 二 1Xp 十 0X (1 一 p) 二 pp。 给 定式 
(14. 1) ,得 出 : 

Fl vy,|x |]=F(x; GB) (14. 6) 


它 同样 绚 侣 ,一 阶 方程 (14. 5 的 左边 具有 有 零 期 望 值 , 即 一 致 性 的 根本 条 件 。 倘 知 条 
件 均 值 被 正确 设 定 ,一 致 性 的 这 个 特殊 结果 对 于 LEF 密度 来 说 就 成 立 ( 参 见 5.7. 3 
节 ), 而 贝 努 利 密度 是 LEF 密度 。 

MLE 的 分 布 


已 知 正确 设 定 密度 , 则 有 A 一 NM[B, (一 E[9? Lv/9B9B'])-1]( 参 见 5. 6.4 
节 )。 对 于 式 (14. 4) 求 关于 6 的 导数 ,并 对 期 望 值 取 人 负数 ,得 到 估计 渐 近 方差 窍 阵 


(asymptotic variance). 

1 A) 

VB] = (2 FB FRB Axx) 14.0) 
其 中 ,由 于 ELy; 一 F(x;B )] = 二 0, 故 可 简化 。 这 个 方程 矩阵 具有 简单 形式 
(2nwixixi) ! ,这 里 的 权 数 性 ; 已 由 式 (14.7) 给 出 。 

由 于 一 致 性 只 要 求 对 条 件 均 值 或 概率 正确 设 定 ,所 以 当然 考察 准 MLE( 参 见 

5.7 节 ), 并 将 推断 建立 在 方差 矩阵 的 三 明治 形式 A '!'1BA ! 基 础 上 ,而 不 是 式 
(14.7) 使 用 的 一 A :基础 上 。 这 里 : 


Viy,|x |=F(xB)(1— F(x 8)) (14. 8) 


因为 Viy] 二 (1 一 p)?Xp 十 (0 一 p)?X(1 一 p) 一 p(1 一 p)。 经 过 一 些 代 数 运算 ,可 
以 证 明 ,一 旦 假设 对 不 同 i 具有 独立 性 ,这 蕴含 A 二 一 B, 从 而 A 1BA !'! 一 A !。 式 
(14. 8) 不 成 立 的 唯一 方式 是 , 当 遭 受 更 基本 的 非 一 致 性 问题 时 ,出现 p 关 F(x 6B) 时 

二 值 结 果 模 型 很 有 特色 ,因为 当 数 据 对 于 不 同 i 是 独立 的 ,利用 三 明治 形式 不 
存在 什么 优势 。 转 向 稳健 方差 矩阵 估计 的 唯一 原因 是 , 因 出 现 聚 集 , 故 观测 值 关 于 
i 是 相关 的 ,于 是 需要 稳健 估计 , 即 甚至 对 于 聚集 是 稳健 的 (参见 24. 5 节 ) ,而 不 是 
对 条 件 方 差 的 错误 设 定 是 稳健 的 。 
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14. 3. 4 Jogit 模型 
logit 模型 (logit modeil) 或 者 逻辑 斯 蒂 回 归 模 型 (logistic regression model) 
设 定 : 


eo*B 
Ee (14. 9) 


其 中 ,A(") 表 示 逻 辑 斯 蒂 cdf( 更 详细 内 容 参 见 14. 4. 1 节 ), 而 A(z)==e*/(1 十 e*) 一 
7/(1 十 e *), 
由 于 A’(z)==A(z)[l1 一 A(z)], 故 logit 的 MLE 一 阶 条 件 (14. 5) 简 化 成 : 


p=A(x DB) 一 一 一 六 


N 
> (一 AGO))x 一 0 (14. 10) 
i=1 


因此 ,类 似 于 OLS 回归 ,原始 残 差 y; 一 A(xiB) 与 回归 元 是 正 交 的 。 由 于 A(':) 是 贝 
努 利 密度 的 典型 连结 函数 (canonical link function) (参见 5.7.4 节 ), 所 以 出 现 简 单 
形式 。 

若 回 归 元 x 包括 截 距 , 则 式 (14. 10) 蕴 含 习 了;(y; 一 A(x/B)) 二 0, 因 而 logit 残 差 
和 为 0。 从 而 得 出 ,样本 内 预测 概率 平均 值 N“!' >;,A(x! BB) 一 定 等 于 样本 频率 y。 

对 于 logit 模型 来 说 ,其 边际 效应 (marginal effects) 相 当 容 易 地 从 系数 中 获得 ， 
因为 3p;/9zx; 二 pi(1 一 p;)B; ,其 中 ,p; 二 A; 二 A(xXiB)。 一旦 在 p; 二 3 处 进行 计算 ， 
得 到 5(1 一 5)B; 的 边际 效应 大 概 人 和 估计。 例如 ,对 于 0. 3 过 p; 过 0.7,3p;/9xi 位 于 0. 
218; 与 0.258 之 间 。 对 于 pi 二 0.0 的 数据 来 说 ,在 此 情况 下 ,大 多 数 结果 为 0, 3 
pi/9Zzi 二 p;B; ,因而 B; 给 出 当 zi; 变化 时 关于 yy; 二 1 概率 的 成 比例 效应 。 

在 统计 学 文献 中 ,对 系数 非常 普遍 的 解释 是 依据 关于 优势 比 ,而 不 是 概率 的 边 
际 效应 来 表述 。 对 于 logit 模型 来 说 ,有 : 


p=exp(x 8)/(1+exp(x 8)) 


人 一 exp(XD) (14. 11) 


>In T=xB 
这 里 ,Pp/(1 一 p) 测 算 y 二 1 的 概率 相对 于 y 一 0 的 概率 之 比 , 并 称 为 优势 比 (odds 
ratio) 或 相对 风险 (relative risk)。 例 如 ,考察 药物 研究 ,其 中 ,y= 二 1 表示 存活 ,而 
y 一 0 表示 死亡 ,同时 回归 元 包括 用 药 量 测量 。 优 势 比 为 2 意味 着 ,存活 发 生 比 是 
死亡 的 2 倍 。 对 于 logit 模型 来 说 ,对 数 优势 比 (log-odds ratio) 关 于 回归 元 是 线 
性 的 。 

一 些 条 件 分 析 及 软件 包 都 运用 式 (14. 11) 的 第 二 个 等 式 。 假 定 第 7 个 回归 元 
增加 一 个 单位 。 那 么 ,exp(x'6B8) 增 大 到 exp(xB 十 8B;) 一 exp(x B) Xexp(p;). 由 式 
“(14. 11) 可 得 ,优势 比 增加 exp(8) 倍 。 因 而 ,例如 ,对 于 logit 模型 来 说 ,0. 1 的 斜率 


C12 又 称 为 发 生 比 。 一 一 译 者 注 
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参数 意味 着 ,回归 元 上 增加 一 个 单位 ,最 初 优势 比 会 增加 exp(0. 1) 一 1. 105 倍 。 这 
是 用 增 大 0. 105 比例 乘 以 最 初 优势 比 ,因此 ,生存 的 相对 概率 提高 10. 5%。logit 
模型 的 这 一 解释 广泛 用 于 生物 统计 学 应 用 之 中 。 

对 于 经 济 学 家 来 说 ,一 种 更 自然 的 方式 是 ,将 式 (14. 11) 的 第 二 个 等 式 或 第 三 
个 等 式 解释 成 B 是 半 弹 性 (semi-elasticity) 的 含义 。 然 后 ,采用 微分 方法 ,将 logit 
模型 斜率 0. 1 参数 解释 成 回归 元 上 增加 一 个 单位 会 使 优势 比 增 大 0. 1 倍 。 对 于 非 
党 小 的 记 来 说 ,这 与 统计 学 中 所 使 用 的 解释 完全 一 样 , 从 而 exp(pB,) 一 1 二 8B,。 


14.3.S probit 模型 
probit 模型 (probit model) 将 条 件 概 率 设 定 成 : 


xD 
p= B(xXB) = | $C2)d (14. 12) 


其 中 ,@@(.) 表 示 标 准 正 态 cdf, 其 导数 %(z) 一 (1/V2x)exp( 一 对/2), 它 是 标准 正 态 
密度 函数 。 
probit MLE 的 一 阶 条 件 是 : 


AN， 
> wily, D(X 0) )x, 0 
1 一 ] 


这 与 logit 模型 不 同 ,其 中 , 权 数 ww; 二 g(xfB)/[@BCx1B) (1 一 B(x/B))] 随 观 测 值 而 
probit 模型 的 边际 效应 是 ,9p;/9zxi 一 4(XB)B 一 $(®@ 1!1(p;))B, 其 中 p; = 
DP(xiB)。 尽 管 9p;/9z;; 志 0. 40B ,但 由 于 $(z) 志 8(0.5) 二 1/ V2z, 故 不 存在 类 似 于 
logit 模型 的 进一步 简化 。 
probit 模型 不 像 logit 模型 那样 简单 。 不 过 , 若 起 点 是 潜 正 态 回归 模型 (参见 
14.4 节 ), 则 因为 它 是 一 个 自然 的 模型 仍 会 被 广泛 运用 。 


14.3.6 OLS 估计 


一 种 对 logit 或 probit 的 可 供 选 择 是 ,y 对 x 的 OLS 回归 (OLS regression ) 。 
这 具有 明显 的 缺陷 ,可 能 出 现 所 求 的 预测 概率 x{B 是 负 的 或 大 于 1。 

不 过 ,OLS 估计 量 作为 解释 工具 仍 是 有 用 的 。 在 实际 应 用 中 , 它 提 供 了 当 
变化 时 样本 平均 对 y 二 1 的 概率 的 边际 效应 的 一 种 合理 的 直接 估计 值 , 尽 管 它 关 于 
个 体 概 率 提 供 了 不 好 的 模型 。 实 际 上 , 它 提 供 哪 些 变量 是 统计 显著 的 一 种 良好 指 
南 。 在 许多 应 用 中 ,可 以 证 明 ,对 于 所 有 样本 观测 值 来 说 ,0<< CE<1 ,在 此 情况 下 ， 
OLS 就 更 为 合理 。 

倘若 运用 OLS 估计 量 , 则 因 异 方差 性 (heteroskedasticity ) 而 应 对 标准 误差 加 
以 校正 。 当 概率 p; 二 xiB8 时 ,可 判定 线性 回归 是 正确 的 。 于 是 ,y; |x; 具有 均值 xf ， 
而 异 方差 方差 x:B (1 一 x;B) 会 随 x; 而 变化 。 

原则 上 , 当 p; 二 xiB 时 ,可 能 获得 一 种 更 有 效 的 ML 估计 。 由 式 (14.5) 知 ,ML 
一 阶 条 件 是 ,x; (yi 一 Xx:B)/LxiB8 (1 一 xiB)] 二 0。 由 于 此 估计 量 将 非常 大 的 权 数 
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施加 给 接近 于 0 或 1 的 含有 xi6 的 观测 值 , 故 它 在 数值 形式 上 表现 得 不 稳定 。 另 
外 ,与 OLS 相 比 ,有 效 性 提高 往往 不 大 。 

即使 含有 异 方 差 标 准 误差 的 OLS 估计 可 作为 一 种 解释 数据 分 析 的 有 益 工 具 ， 
但 最 好 是 对 最 终 数据 分 析 使 用 logit 或 probit MLE，。 


14. 3.7 选择 二 什 模 型 


应 该 运用 哪 一 个 模型 呢 ? 是 logit 还 是 probit? 该 问题 是 本 节 要 探讨 的 。 

理论 上 的 考虑 

从 理论 上 讲 , 回 答 要 依赖 于 数据 生成 过 程 ,而 数据 生成 过 程 却 是 未 知 的。 与 
ML 的 其 他 一 些 应 用 不 同 , 在 设 定 分 布 上 不 存在 什么 问题 , 即 关 于 (0，1) 变 量 的 唯 
一 可 能 分 布 是 贝 努 利 分 布 。 该 问题 依赖 于 对 此 分 布 参数 的 了 基 数 形式 的 设 定 。 若 数 
据 生 成 过 程 具 有 p= 二 A(x B), 则 应 该 使 用 logit 模型 ,而 建立 在 其 他 模型 诸如 probit 
基础 上 的 一 些 估计 量 均 潜在 地 是 非 一 致 的 。 不 过 , 若 数 据 生 成 过 程 具有 p= 二 (x 6B)， 
则 类 似 的 定性 结论 仍然 成 立 , 在 此 情况 下 ,应 该 使 用 probit 模型 。p 二 x 6 是 最 不 
可 能 出 现 的 ,因为 那样 p 没有 限制 在 0 与 1 之 间 。 

可 是 ,模型 错误 设 定 的 理论 后 果 并 没有 如 此 之 大 。 如 果 回 归 元 具有 分 布 ,使 得 
以 线性 组 合 x B 为 条 件 的 每 个 回归 元 的 均值 关于 x 8 是 线性 的 ,那么 可 以 证 明 , 选 
择 错 误区 数 下 同样 会 影响 到 所 有 斜率 参数 ,以 致 斜 率 参 数 之 比 对 于 不 同 模型 都 是 常 
值 ;参见 鲁 德 (1983)。 借 助 于 球面 分 布 族 , 包 括 多 变量 正 态 分 布 , 该 条 件 会 得 到 满足 ，。 

就 一 阶 条 件 与 渐 近 分 布 而 言 , logit 模型 拥有 相对 简单 的 形式 。 介 殉 森 (Berk- 
son，1951) 曾 经 推广 logit 模型 ,给 出 与 最 初 probit 模型 相 比 他 更 偏爱 logit 模型 的 
几 个 原因 之 一 。 在 广泛 用 于 生物 统计 学 的 广义 线性 模型 框 染 下 ,logit 模型 是 一 个 
自然 的 模型 ,因为 它 对 应 于 使 用 二 项 分 布 的 最 简洁 的 联系 。 依 据 对 数 优 势 比 对 系 
数 的 解释 也 是 logit 模型 的 吸引 人 之 处 。 

迄今 为 止 , 使 用 logit 模型 的 男 一 个 动机 是 判别 分 析 (discriminant analysis ) 。 
在 判别 分 析 中 ,yy 是 随机 变量 ,z 也 是 随机 变量 ,z 是 可 观测 的 ,y 却 不 是 可 观测 的 。 
给 定 工 时 ,我 们 需要 决定 y 是 否 等 于 0 或 1。 一 个 经 典 例 子 是 ,对 人 类 (y= 二 0 或 1) 
头盖骨 进行 分 类 , 即 什么 类 型 属于 给 定 头盖骨 的 各 种 维度 。 当 已 知 y 时 特征 x 的 
条 件 分 布 服从 多 变量 正 态 分 布 时 ,已 知 xz 时 yy 的 后 验 概 率 就 类 似 于 logit 模型 的 概 
率 。 对 于 更 详细 内 容 , 参 见 雨 官 (Amemiya, 1981, 第 1 507~1 510 页 ) 以 及 马达 拉 
(Maddala，1983 ,第 17 一 21 页 )， 

与 之 相 比 ,probit 模型 因 潜 正 态 随机 变量 激励 而 拥有 引 人 注 目 之 处 (参见 14. 4 
节 ) ,同时 很 自然 地 推广 到 Tobit 模型 (参见 第 16 章 )。 正 是 由 于 这 些 原 因 , 许 多 经 
济 学 家 都 运用 probit 模型 。 

经 验 上 的 考虑 

从 经 验 上 讲 , 不 是 运用 log 寺 就 是 运用 probit。 出 自 probit 模型 的 预测 概率 与 
出 自 logit 模型 的 预测 概率 之 间 ,通常 存在 极 小 差异 。 在 概率 接近 于 0 或 1 的 尾部 
时 ,它们 之 间 的 差异 最 大 。 者 关注 内 容 只 是 在 于 样本 ,而 不 是 每 一 个 个 体 的 边际 效 
应 , 则 其 差别 就 相当 小 。 
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用 于 比较 模型 的 一 个 距离 是 拟 合 对 数 似 然 ,这 是 因为 给 定 关 于 p; 模型 ,存在 
着 一 致 认识 ;对 数 似 然 是 正确 的 观点 ,而 且 logit 模型 与 probit 模型 拥有 相同 个 数 


CB) = Dy ng ty) nd— 8p)) 

其 中 ,P; 二 A(xf Bow) 或 ;二 B(x’ Bom)。 这 两 个 模型 的 拟 合 对 数 似 然 往往 是 非常 
相似 的 ,再 次 表明 ,使 用 一 个 模型 而 不 是 另 一 个 模型 带 来 的 额外 好 处 很 少 。 关 于 更 
正式 非 般 套 模 型 检验 内 容 , 可 参见 佩 萨 兰 和 佩 萨 兰 (Pesaran and Pesaran,1995) 以 
及 8.5 节 ， 

各 种 不 同 的 模型 会 产生 截然 不 同 的 回归 参数 的 所 估计 值 。 然 而 ,这 只 是 利用 
各 种 不 同 概率 公式 的 人 为 现象 。 更 有 意义 的 是 ,去 比较 不 同 模型 的 边际 效应 ,因为 
这 种 测量 对 于 三 种 模型 来 说 具有 类 似 标 度 。 由 14. 2. 3 节 知 ,对 于 logit 模型 ， 
9p/9xj 坟 0. 25B; 。 对 于 probit 模型 ,3p/9zx; 志 0. 46 ,而 对 于 OLS 来 说 ,apy/azr; 一 


J 


B;。 从 而 ,提出 一 个 经 验 法 则 (rule of thumhb) : 


Hour ~4 Bs (14. 13) 
Botn ~2. 5 ys 
Boait 1. 6 局 ii 
雨 官 (Amemiya, 1991, 第 1 488 页 ) 已 经 证 明 , 当 0.1 委 2 委 0. 9 时 ,这 些 比较 关系 
对 斜率 参数 相当 奏效 。 较 大 偏离 出 现在 各 个 不 同 模型 的 尾部 。 对 于 logit 模型 
来 说 , 稍 后 将 给 出 建立 在 式 (14. 18) 基础 上 的 一 种 可 供 选 择 的 方法 ;使 用 Be, 一 
(r/V3) in。 
内 生 回 归 元 
可 对 logit 与 probit 模型 加 以 推广 ,用 以 处 理 微 观 经 济 计量 分 析 中 普遍 出 现 的 
许多 复杂 情况 。 特 别 地 ,内 生 回 归 元 可 利用 类 似 于 16. 8. 2 节 给 出 的 关于 删 失 数据 
的 那些 方法 以 及 将 在 第 23 章 曾 述 的 面板 数据 方法 都 可 用 于 分 析 内 生 回归 元 。 
对 于 这 类 复杂 情况 ,以 线性 概率 模型 加 以 研究 比较 容易 ,倘若 标准 误差 对 异 方 
差 性 可 调整 ,从 而 应 用 标准 线性 模型 方法 。 即 使 最 终 运 用 logit 与 probit 模型 ,对 
于 解释 性 分 析 来 说 ,线性 模型 也 是 有 益 的 。 


14. 3.8 和 确 怎 模型 语 合 糙 


关于 非 线 性 模型 的 模型 诊断 与 选择 ,已 在 8. 7 节 曾 述 。 这 里 ,考察 对 二 值 结果 
模型 的 专门 研究 。 不 存在 单个 最 佳 测 量 , 因 此 ,统计 软件 包 会 报告 雨 宫 (Amemiya， 
1981) 与 马达 拉 (Maddala，1983) 曾 详 述 过 的 几 种 测量 。 

伪 R 

在 线性 回归 模型 中 ,标准 拟 合 优 度 是 R*:。 而 对 非 线 性 模型 的 推广 称 为 伪 R 
(pseudo-R’ ) , 它 有 几 种 可 能 的 推广 形式 。 

更 受 音 欢 的 测量 是 8. 7. 1 节 记 为 Rg 的 相对 增益 测量 。 这 种 测量 并 不 总 是 可 
以 计算 的 ,但 它 适合 于 二 值 结果 模型 ,因为 Qa; 即 对 数 似 然 的 最 大 可 能 值 为 零 。 为 
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了 获得 此 结果 ,注意 到 ,最 佳 可 能 拟 合 显然 是 y* , 它 以 概率 p 二 1 预测 > 一 1 而 以 概 
率 1 一 p 二 0 预测 y= 二 0, 在 这 种 情况 下 , f(y*) 二 1 是 ln f(y ) 二 0。 于 是 ,RR 一 1 一 
(0 一 Qa)/( 0 一 QQ ) 一 1 一 QayQ 。 从 而 ,得 出 由 麦克 法 登 (McFadden，1974) 查 出 
的 关于 二 值 结果 模型 的 R* 测量 : 


Rg=—1—A (14. 14) 
”之 iLyw ln pi (1 yi)ln(l ep) 


一 1 
N| yln y+(l—y)ln(l—y) | 


其 中 ,p= 二 F(xiB), 而 y= 二 NT! Dy,。 

针对 许多 特定 的 二 值 数据 , 男 一 些 关 于 R* 的 测量 已 由 雨 理 (Amemiya，1981) 
与 马达 拉 (Maddala，1983) 给 出 。 一 种 明显 的 测量 结果 是 ,y 与 ;之 间 样 本 相关 
系数 的 平方 。 这 些 额 外 测量 之 一 ,也 要 归功 于 麦克 法 登 ,而 且 许 多 参考 文献 都 给 出 
这 个 测量 值 而 不 是 式 (14. 14) 的 R， 

预测 结果 

在 线性 回归 模型 中 , 拟 合 优 度 经 党 通过 拟 合 值 与 实际 值 的 比较 来 计算 。 对 于 
二 值 数 据 来 说 , 拟 合 值 3 应 是 二 值 的 ,因为 y 是 二 值 的 。 准 则 2;(y; 一 35;)? 会 给 出 
错误 预测 的 数 , 若 (y, 5 等 于 (1, 0) 或 (0, 1), 则 会 出 现 此 情况 。 一 个 明显 的 预测 
规则 是 , 当 二 =F(x G)>0.5 时 , 设 ?1。 不 过 ,这 有 一 个 弱点 , 即 当 样本 大 部 分 满 
足 y 二 1 时 ,常常 有 22;Cy; 一 了) 二 n(1 一 了 ) ,因为 很 可 能 疡 >0.5, 因 此 ,对 于 所 有 观 
测 值 3Y 王 1。 当 样 本 大 部 分 满足 y= 二 0 时 ,会 出 现 类 似 问 题 。 

更 一 般 地 ,考察 截止 值 范 围 。 当 之 c 时 , 设 定 5 二 1, 我 们 得 到 受 试 者 工作 特 
性 (receiver operating characteristics，ROC ) 曲线 ‘11, 它 画 出 当 截 断 值 (cutoff 
value)c 改变 时 ,y 二 1 值 正确 分 类 部 分 与 y 一 0 值 错误 分 类 部 分 对 于 c 一 1 来 说 ,所 
有 值 均 预 测 成 为 1, 因 而 所 有 y= 二 1 值 是 正确 分 类 的 ,而 所 有 y= 二 0 值 却 错误 分 类 ， 
从 而 ROC 曲线 取 值 (0, 0)。 类 似 地 ,对 于 c= 二 0 来 说 ,ROC 曲线 取 值 (1, 1)。 


(C12 受 试 者 工作 特性 曲线 ,又 称 为 接收 者 操作 特性 曲线 。RQOC 分 析 起 源 于 20 世纪 50 年 代 的 统计 决 
策 理论 。 后 来 ,应 用 于 雷达 信号 观察 能 力 的 评价 ,20 世纪 60 年 代 中 期 ,有 大 量 成 功用 于 实验 心理 学 和 心理 物 
理学 研究 。 勒 斯 带 德 (Lusted) 首 次 提出 了 ROC 分 析 可 用 于 医学 决策 评价 。 自 从 20 世纪 80 年 代 起 ,该 方法 
广泛 用 于 医学 诊 新 性 能 的 评价 。 

ROC 曲线 用 于 二 分 类 判别 效果 的 分 析 与 评价 ,一般 自 变 基 为 连续 变量 , 因 变 量 为 二 分 类 变量 。 基 本 原理 
是 ;通过 截止 点 (cutoff point/cutoff value, 分 界 值 或 决定 装 ) 的 移动 ,获得 多 对 灵敏 度 (sensitivity) 和 误 判 率 
[1-Specificity( 特 异 度 )], 以 灵敏 度 ( 真 阳性 率 为 纵 轴 标 ,以 误 判 率 ( 假 阳性 率 为 横 轴 标 ,连接 各 点 绘制 曲线 ， 
然后 计算 曲线 下 的 面积 ,面积 越 大 ,判断 价值 越 高 。 其 中 ,灵敏 度 表示 把 实际 真 值 判 断 为 其 值 的 概率 : 特 措 度 
表示 把 实际 的 假 值 判 断 为 假 值 的 概率 ; 误 判 率 表 示 把 实际 的 假 值 判 断 为 真 值 的 概率 ,其 值 等 于 1 一 特异 度 。 

将 绘 成 的 曲线 与 45" 直 线 对 比 , 若 差不多 重合 ,说 明 自 变量 对 因 变 量 的 判断 价值 很 差 , 若 越 远 离 45 下 线 . 
即 曲 线 下 的 面积 越 大 ,说 明 自 变量 对 因 变 量 的 判断 价值 越 好 , 即 根据 自 变 量 可 以 较为 正确 地 判断 因 变 量 。 

目前 ,ROC 和 曲线 在 医学 诊断 中 广泛 运用 。 传 统 的 诊断 试验 评价 方法 有 一 个 共同 特点 ,必须 将 试验 结果 分 
为 两 类 ,再 进行 统计 分 析 。ROC 曲线 的 评价 方法 与 传统 的 评价 方法 不 同 ,无 须 此 限制 ,而 是 根据 实际 情况 ,多 
许 有 中 间 状 态 , 可 将 试验 结果 划分 为 多 个 有 序 分 类 ,如 正常 .大 致 正常 .可 疑 . 大 致 异常 和 异常 五 个 等 级 青 进 
行 统计 分 析 。 一 一 译 者 注 
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若 模 型 没有 预测 能 力 , 则 ROC 曲线 是 这 些 点 之 间 的 直线 。 该 曲线 越 弯 般 , 辐 
时 它 下 面 区 域 越 大 , 则 模型 预测 力 就 越 好 。 

预测 概率 

由 于 二 和 值 数据 服从 简单 的 离开 分 布 , 一 种 明显 的 方法 是 ,将 y 二 1 的 样本 平均 
预测 概率 与 样本 频率 N12 了,p; 加 以 比较 ,其 中 ,P= 二 F(x PB) ,样本 频率 为 yy。 不 
过 ,对 于 具有 截 距 模型 来 说 ,这 没有 什么 用 途 , 因 为 当 ML 一 阶 条 件 蕴 含 2;L y; 一 
A(x' 有 )]=0 时 ,N16 ;二 5 总 是 成 立 的 。 对 于 通过 OLS 进行 估计 的 情况 ,类 似 
结论 成 立 ,就 probit 模型 而 言 , 此 结论 并 不 准确 ,但 实际 上 却 相当 接近 。 

然而 ,这 一 方法 能 用 于 对 子 样本 的 预测 ,然后 建立 8. 2.6 节 给 出 的 卡 方 拟 合 优 
度 检 验 的 基础 。 


14. 4 ” 港 变 量 模 型 


潜 变 量 513(latent variable) 是 指 不 完全 观测 到 的 变量 。 湾 变量 会 以 两 种 不 同 
方式 引入 二 值 结 果 模 型 中 。 第 一 种 方式 中 的 潜 变 量 是 指 ,关注 事件 发 生 的 不 可 观 
测 到 的 倾向 。 第 二 种 方式 中 的 潜 变量 是 指 ,关注 事件 发 生出 现时 效用 上 的 差异 
( 差 ) ,这 里 假定 二 值 结 果 是 个 体 选 择 的 结果 。 显 然 ,后 一 种 方法 需要 在 下 述 两 种 回 
归 元 之 间 加 以 区 分 , 即 对 于 给 定 个 体 来 说 , 随 不 同 可 供 选 择 而 变化 的 回归 元 与 给 定 
个 体 随 不 同 可 供 选 择 而 不 变 的 回归 元 ,诸如 社会 经 济 特征 。 

应 该 强调 的 是 ,如 同 14. 3 节 一 样 , 二 值 结果 服从 贝 努 利 分 布 。 潜 变量 模型 只 
对 贝 叶 斯 参数 的 特定 钼 数 形式 提供 了 一 个 理论 框 染 。 

潜 变 量 模 型 可 被 推广 到 多 项 式 结果 与 删除 结果 (第 15 章 和 第 16 章 将 痔 述 )。 
潜 变 量 模型 同样 提供 利用 增 广 数据 进行 贝 叶 斯 分 析 ( 参 见 13.7 节 )。 二 值 数据 与 
多 项 式 数据 的 贝 叶 斯 分 析 的 简要 讨论 将 在 15. 7. 2 节 和 15. 8. 2 市 给 出 。 


14. 4. 1 指标 肯 数 模型 


在 指标 函数 (index function) 公 式 中 ,关注 内 容 在 于 解释 基本 不 可 观测 连续 随 
机 变量 ,但 我 们 观测 到 的 全 部 内 容 是 二 值 变 量 y,y 依据 y* 是 否 经 过 门限 值 而 取 值 
为 1 或 0。y* 的 不 同 分 布 会 导致 各 种 不 同 的 二 值 结果 模型 。 

设 y* 表示 潜 变 量 (或 不 可 观测 变量 ) ,诸如 对 劳动 力 供给 进行 建 模 时 的 工作 意 
愿 去 向 。y* 的 一 个 回归 模型 是 指标 肾 数 模型 (index function modeb : 


y” =xX [BTu (14. 15) 
不 过 , 当 六 不 可 观测 时 ,就 不 能 估计 这 个 模型 。 相 反 ,我 们 观测 到 : 
y= 二 全 (14. 16) 


其 中 ,门限 值 0 是 下 述 将 要 解释 的 正规 化 。 


[1] 又 称 为 隐 变 量 。 一 一 译 者 注 
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已 知 式 (14. 16), 有 : 
Pr| y=1|x|=Pr|l y’ >0| (14. 17) 
二 Pr[x 6 二 wu>0] 
一 PrL —u<x6 | 
—F(x 8) 
其 中 ,FF 表示 一 u 的 cdf, 在 密度 关于 0 对 称 的 通常 情况 下 ,下 等 于 wu 的 cdf。 
因此 ,指标 函数 模型 给 出 式 (14. 1) 中 F(:) 函 数 形式 的 动机 。 
probit 模型 和 logit 模型 
若 误 差 服从 标准 正 态 分 布 , 则 是 probit 模型 ,从 而 由 式 (14. 17) 得 到 ,Pr[ 一 一 
x Bj] 二 B(x B), 其 中 ,@(*) 表 示 标 准 正 态 的 cdf。 
现在 ,引进 逻辑 斯 蒂 分 布 (logistic distribution) 。 在 其 标准 形式 中 ,逻辑 斯 蒂 分 
布 的 cdf 为 : 


A(u)=e"/(l+e’), 一 coco<<ux<<oco (14. 18) 


其 密度 函数 A (w) 二 e*/ (1 十 e*)? 关于 0 是 对 称 的 ,并 且 逻 辑 斯 蒂 随 机 变量 均值 为 
0, 且 方差 为 六 /3 一 1. 1847，。 | 

当 误 差 x 服从 人 逻辑 斯 带 分 布 , 即 logit 模型 ,由 式 (14. 17) 得 到 ,Pr[ 一 uw<<x Bj 二 
A(xB)。 注 意 到 ,这 两 个 模型 中 因为 VLaj] 不 同 , 所 以 8 表示 不 同 的 标 度 。 

识别 考虑 

单 指标 模型 的 识别 (identification) 要 求 对 x 的 方差 进行 限制 ,因为 单 指标 模型 
仅 能 识别 86, 至 多 差 一 个 常 值 标 度 。 所 能 观测 到 的 全 部 内 容 是 ,y” 是否 盖 0 或 等 价 
地 是 否 xXBG 二 xz >0。 可 是 ,这 等 价 于 XEB8+ 十 对 全 0 其 中 ,3+ 一 aB 以 及 2 一 aa， 
对 于 任何 a 二 0。 如 果 对 误差 的 方差 (wu 或 u” ) 施 加 约束 ,使 确保 B 的 唯一 性 。 在 
probit 模型 中 , 设 该 误差 方差 为 x /3。 

指标 模型 的 门限 不 必 是 0。 更 一 般 地 ,如 果 当 交 >zg6 时 y 二 1, 那 么 式 
(14. 17) 变 成 Pr[Ly 二 1 二 F(x B8 一 z6), 于 是 .6 能 单独 识别 , 当 且 仅 当 z 的 所 有 分 
量 与 x 的 所 有 分 量 均 不 一 样 。 特 别 地 , 乔 x 包含 截 距 ,z 也 包含 截 距 , 则 这 些 不 能 单 
独 进行 识别 ,所 以 要 对 门限 截 距 正规 化 为 0。 注意 到 ,误差 分 布 均值 也 需要 加 以 正 
规 化 。 就 logit 模型 与 probit 模型 而 言 , 把 它 设 为 0。 

讨论 

指标 函数 模型 蕴含 对 8 的 直接 解释 , 即 当 x 变动 一 个 单位 时 湾 变 量 y 上 的 变 
化 。 即 使 y* 是 不 可 观测 的 ,但 人 们 使 用 & 的 设 定 方 差 的 知识 ,这 种 解释 是 有 意义 
的 。 例 如 ,在 probit 模型 中 ,斜率 参数 0. 5 意味 着 回归 元 上 的 单位 变动 会 导致 多 
上 的 0. 5 个 标准 差 变 化 ,因为 在 这 一 模型 中 ,y 的 方差 等 于 1。 

指标 孙 数 方法 广泛 运用 的 一 种 推广 (extension) 是 ,有 序 离散 选择 模型 (参见 
15. 9 节 ), 以 及 关于 删 失 样本 及 选择 样本 的 模型 (参见 第 16 章 )。 


14. 4.2 上 随 裤 亚 用 模型 
在 随机 效用 公式 中 ,消费 者 在 0 与 1 之 间 进 行 选择 ,依据 是 哪 一 种 选取 具有 较 
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高 的 满意 度 或 效用 。 若 选项 1 具有 较 高 效用 , 则 离散 变量 > 取 值 1 ,而 若 选 项 0 具 
有 较 高 效用 , 则 > 取 值 0。 
可 加 随机 效用 模型 (ARUM) 对 选项 0 与 1 设 定 成 ; 


Uo 一 Vo 十 go (14., 19) 
U 一 V ， 十 eo 


其 中 ,Vo 与 Vi 均 表 示 效 用 的 确定 性 成 分 ,而 ee 与 sl 均 表 示 效 用 的 随机 性 成 分 。 
一 个 简单 的 例子 是 Vo。 二 x Bo 且 Vi 一 xB1, 具 有 较 高 效用 的 选项 被 选取 。 

具有 较 高 效应 的 选项 被 选取 。 比 如 说 ,当世 >Uu 时 ,我 们 观测 到 y= 二 1]。 由 于 
效用 的 随机 性 成 分 存在 ,所 以 这 是 一 个 满足 


Pr| y=1 | 一 Prl DDN >U, | (14. 20 ) 
=Pr[ Vite Vo 二 eo | 
一 Prl so 一 sl <<V 一 V | 
一 上 (YI 一 Yo ) 


的 随机 事件 ,其 中 ,下 表示 (eo 一 ei) 的 cdf。 当 Vi 一 Vo 一 x BB 时 ,得 到 Pr[ y= 二 1]== 
F(x 8). 

由 于 当 Ui 这 Uo 时 ,有 aUia ,所 以 ARUM 需要 对 标 度 进行 正规 化 。 这 通 
党 是 借助 于 设 定 E0 El 的 方差 或 E0 与 El 的 方差 来 完成 。 

对 so 与 si 的 分 布 进行 各 种 不 同 设 定 , 会 给 出 不 同 的 下 (.) ,从 而 得 到 各 种 离散 
选择 模型 。 随 机 效用 公式 尤其 对 设 定 无 序 多 项 式 选 择 模型 有 用 (人 参见 15. 5 节 ) 。 

probit 模型 与 logit 模型 

对 式 (14. 19) 误 差分 布 的 一 种 明显 选择 是 ,eo 与 es 均 服 从 正 态 分 布 。 于 是 ， 
(eo 一 e1) 服 从 正 态 分 布 。 奉 对 (eo 一 ei ) 的 方差 进行 正规 化 为 1, 则 得 到 probit 模型 ， 
从 而 式 (14. 20) 的 F(:) 是 标准 正 态 cdf。 

现在 引 人 人 第 1 类 极 值 分 布 (type 1 extreme value distribution) 或 对 数 威 布尔 分 
布 (log Weibull distribution) 。 于 是 , 阴 机 变量 es 具有 密度 . 


fl(le)=e ‘exp(—e ‘), 一 co<<e<< oo (14.21) 


而 且 cdf F(e) 二 exp( 一 e“)。 极 值 分 布 极 少 在 经 济 计量 学 中 应 用 , 它 可 作为 从 相同 
分 布 抽取 的 六 个 随机 变量 的 最 大 值 在 N 一 co 时 的 极限 分 布 。 第 1 类 极限 分 布 是 
如 下 的 特殊 情况 :在 (一 ce ，ce) 上 拥有 一 2 与 5 之 间 的 大 部 分 质量 是 右 偏 斜 的 。 它 
具有 中 位 数 一 In( 一 In(0. 5)) 一 0. 366 51 ,均值 FPC) 一 0. 577 22 ,其 中 ,PCGz) 表 示 伽 
玛 消 数 的 导数 ,而 且 方 差 xr? /6 二 1. 282 55: 。 此 分 布 可 由 对 数 正 态 来 很 好 地 有 逼近。 

者 假定 ee 与 sl 服从 独立 的 第 1 类 极限 分 布 , 就 是 logit 模型 。 可 以 证 明 ,其 差 
服从 逻辑 斯 蒂 分 布 [参见 约翰 进 和 科 获 (Johnson and Kozt，1970)], 所 以 式 
(14. 20) 中 的 FC,) 是 逻辑 斯 蒂 cdf。 

作为 这 个 结果 的 一 种 可 供 选 择 的 推导 是 极 值 分 布 直接 进行 , 稍 后 在 14. 8 节 给 
出 。 当 ARUM 被 扩展 到 15. 5 节 中 在 三 个 或 更 多 可 供 选 项 之 中 选择 的 情况 时 , 推 
导 求 出 概率 闭 形式 解 是 极其 困难 的 。 黄 至 在 不 存在 闭 形式 解 时 ,最 近 的 计算 发 展 
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使 得 佑 计 变 得 容易 。 
14. 4.3 随 可 贷 人 选 项 变化 的 回归 元 


在 绝 大 多 数 二 值 选 择 模型 的 应 用 中 ,有 些 回 归 元 会 随 不 同 个 体 而 变化 ,但 一 些 
回归 元 不 一 定 会 随 可 供 选 项 而 变化 。 

在 一 种 极端 情形 下 ,回归 元 并 不 随 可 供 选 项 而 变化 。 例 如 ,在 决策 参加 工作 的 
劳动 力 供给 模型 中 ,社会 经 济 特征 诸如 收入 与 性 别 并 不 随 可 供 选 项 而 变化 。 一 种 
潜在 的 回归 元 壁 如 工资 率 没有 随 着 工作 或 不 工作 的 选项 而 变化 ,但 通常 不 包括 这 
种 回归 元 ,因为 它 仅 对 那些 选择 工作 的 人 来 说 是 可 观测 的 。 

另外 一 种 极端 情形 下 ,所 有 回归 元 可 以 随 可 供 选 项 而 变化 。 例 如 ,在 运输 方式 
选择 模型 中 ,回归 元 可 能 是 时 间 成 本 与 两 种 运输 模型 的 货币 成 本 。 

一 般 的 混合 ARUM 是 将 式 (14. 19) 中 效用 的 确定 性 成 分 定义 成 : 


Vi =Zj0Q ;二 WiYyj, 7 二 0, 1 z (14. 22) 


其 中 ,z;; 表示 随 两 个 可 供 选 项 而 取 不 同 值 的 回归 元 ,而 w; 表示 并 不 随 选 取 而 变 化 
的 个 体 特 征 。 于 是 ,由 式 (14. 20) ,得 到 . 


Pr[ yy 王 1] 王 FFOzeai 一 zao 十 wi(yi 一 yo)) 


对 于 随 可 供 选 项 不 变 的 回归 元 (alternative-invariant regressors) 来 说 ,唯一 的 参数 
差 (yi 一 Yo) 是 可 以 识别 的 。 对 于 随 可 供 选 项 上 且 随 个 体 而 变化 的 回归 元 Calterna- 
tive-varying regressors) 来 说 ,其 系数 会 随 可 供 选 项 不 同 而 变化 ,但 一 种 习惯 做 法 
是 , 令 ai 一 ao 一 wa。 例如 ,由 旅行 成 本 增加 !1 美元 引起 的 效用 损失 被 认为 是 随 各 
种 不 同 运输 方式 而 一 样 的 ,因而 ,ARUM 会 导致 : 


Pr[y;=1]=F((zi 一 2o) oa 十 Wi (1 一 Yo)) (14. 23) 


这 是 最 初 二 值 选择 模型 (14. 1) ,其 中 一 些 回归 元 是 随 可 供 选 项 不 变 的 回归 元 w, 以 
及 可 供 选 择 的 不 同 回归 元 z 的 项 之 差 。 


14.5 基于 选择 的 样本 


每 当 样 本 选取 部 分 地 通过 因 变 量 y 取 值 ,而 不 是 完全 随机 或 部 分 基于 由 x 的 
取 值 而 决定 的 时 候 , 就 是 基于 选择 抽样 (choice-based sampling) 。 

一 些 离散 数据 模型 均 是 重要 的 例子 ,因为 调查 经 常 故 意 对 很 少 发 生 的 选择 进 
行 过 度 抽 样 。 例 如 ,如 果 很 少 人 选择 通过 公交 车 经 常 往来 两 地 ,就 可 能 对 乘 公 交手 
的 人 进行 过 度 抽 样 。 在 医学 文献 中 ,对 于 病例 对 照 分 析 (11(case-control analysis) 
来 说 ,会 出 现 同样 问题 ,例如 ,二 值 数据 分 析 可 建立 在 那些 患 有 心脏 病 发 作 的 完全 
样本 与 具有 相似 特征 旦 没有 患 心 脏 病 发 作 的 人 的 子 样本 基础 上 。 基 于 选择 抽样 标 
准 术 语 很 少 会 使 人 误 入 歧途 ,因为 它 不 是 由 个 体 选 择 而 产生 的 。 


【13 又 称 为 个 案 控制 研究 。 一 一 译 者 注 
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为 了 理解 标准 二 值 选 择 方 法 的 非 一 致 性 ,考察 logit 模型 中 唯一 回归 元 是 截 路 
时 的 估计 。 于 是 ,A(Gx%G ) 一 A(G), 同 时 logit 的 MLE 一 阶 条 件 变 成 N 12,X 
(yi 一 A(B)) 二 0, 所 以 B= 二 ln(5/(1 一 5)) 。 很 明显 ,8 的 一 致 性 需要 随机 样本 , 例 
如 ,因为 对 y 二 1 进行 过 度 抽 样 会 导致 对 5 的 过 度 估计 ,从 而 引起 对 8 的 过 度 估计 。 

获得 给 定 内 生 抽 样 ,诸如 基于 选择 抽样 时 一 致 估计 的 方法 ,将 在 24. 4 节 详 细 
阐述 。 当 已 知 过 度 抽 样 程度 时 ,分 析 就 简单 易 行 。 设 Qi 表示 总 体 中 满足 y==1 的 
部 分 ,而 HH， 一 表示 样本 中 满足 y= 二 1 的 部 分 。 类 似 地 ,定义 Go 一 1 一 QQ 有 Ho,= 
1 一 五 ; 。 于 是 ,利用 由 曼 斯 基 和 莱 尔 曼 (Manski and Lerman，1977) 提 出 的 一 种 加 
权 MLE(weighred MLE) 可 进行 一 致 佑 计 。 对 于 二 值 结 果 模 型 来 说 ,这 对 加 权 对 数 
似 然 


(8) 一 > (全 )> In FCx:G) 十 ( 兰 )Q 一 ind 一 Fod67 


求 极 大 值 。 例 如 , 当 结 果 > 一 1 被 过 度 抽样 时 ,Q,/H, 过 1, 从 而 满足 > 一 1 的 过 度 抽 
样 观测 值 均 将 被 降低 权 数 。 这 种 估计 量 很 容易 利用 允许 对 观测 值 加 权 的 二 值 结 果 
模型 的 任何 程序 来 执行 。 于 是 ,满足 y= 二 1 的 观测 值 被 赋予 权 数 Q1/H ,而 满足 
y 一 0 的 观测 值 则 被 赋予 权 数 Qo/H。 

雨 官 (Amemiya，1985,9. 5 节 ) 给 出 关于 二 值 与 多 项 式 数据 的 基于 选择 抽样 的 
ML 方法 的 详细 归纳 总 结 , 包 括 当 Qi 与 Qo 是 末 知 的 时 候 。 尽管 加 权 MLE 是 无 效 
的 ,但 它 实施 简单 且 有 效 性 损失 可 能 不 大 。 曼 斯 基 和 麦克 法 登 (Manski and 
McFadden，1981a) 已 经 提出 一 种 更 为 有 效 的 变形 方法 | 参见 雨 官 和 仿 (Amemiya 
and Vuong，1987) |。 科 塞 尔 特 (Cosselett，1981a, b) 曾 经 提出 完全 有 效 的 进一步 
精 炬 ,但 实施 起 来 意义 不 大 。 英 伯 斯 (JImbens，1992) 以 及 兰 开 斯 特 和 英 伯 斯 (Lan- 
caster and Imbens，1996) 均 提出 了 GMM 估计 作为 一 种 可 供 选择 的 方法 , 它 实施 
起 来 简单 易 行 且 完 全 有 效 。 京 和 曾 (King and Zeng，2001) 给 出 二 值 logit 模型 的 
归纳 总 结 ;此 外 ,他 们 考察 当 关 注 总 体 概 率 以 低 概 率 发 生 时 小 样本 修正 所 引起 的 差 
异 ,甚至 过 度 抽样 。 进 一 步 详细 内 容 , 参 见 24.4 节 。 

流行 病 学 文献 关注 病例 对 照 研究 的 logit 模型 。 该 方法 归功 于 普 伦 蒂 斯 和 派 
到 (Prentice and Pyke, 1979)。 参 见 布雷 斯 洛 (Breslow，1996), 尤 其 是 他 的 4.3 节 
曾 讨 论 经 济 计量 学 和 流行 病 学 文献 之 间 的 关系 。 : 


14.6 ”分 组 数据 与 加 总 数据 


在 一 些 应 用 中 ,只 有 分 组 数据 或 加 总 数据 可 以 利用 ,但 人 们 认为 ,个 体 特征 可 
通过 二 值 选 择 模 型 对 其 进行 建 模 。 当 分 组 是 建立 在 回归 元 的 唯一 值 基础 之 上 时 ， 
进行 分 组 并 不 会 引起 什么 问题 , 而 且 对 回归 元 的 每 一 个 值 而 言 存在 许多 观测 值 。 
在 转向 更 现实 问题 之 前 ,我 们 以 这 种 简单 的 例子 开始 。 


14.6.1 仿 克 铁 撒 小 卡 方 信 计量 
假定 回归 元 回 量 区: 只 取 丁 个 不 同 的 值 ,i 二 1,…,NN, 其 中 ,与 N 相 比 ,了 更 小 
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一 些 。 于 是 ,对 回归 元 每 个 值 来 说 ,我 们 拥有 关于 y 的 多 重 观测 值 。 这 类 分 组 数据 
称 为 每 单元 多 观测 值 (many observations per cell) 。 特 别 地 ,在 x 具有 低 维 数 的 实 
验 数 据 中 能 出 现 此 情况 ,并 且 是 通过 实验 设计 成 为 仅仅 很 少 几 个 值 的 集合 。 设 x 
表示 荆 个 不同 的 值 ,而 N, 表示 z 第 t 个 值 的 关于 yy, 的 观测 值 个 数 ,i 二 1,…, 芽 , 因 
此 有 2 二 NN, 二 NN,p， 表示 当 KX; 一 X, 时 y; 一 1 出 现 的 次 数 。 注意 ,下 标 t 用 于 表示 分 
组 而 并 不 一 定 表示 时 间 ，。 
对 于 满足 x; 二 x, 的 个 体 来 说 ,如 前 所 述 , 册 努 利 概率 是 : 

p=Pr[y;=1|x;=x |=F(%B) (14. 24) 

当 对 式 (14. 24) 求 反 函 数 时 ,得 到 : 
Fi(p,)=x%pb 


现在 ,p, 未 知 , 却 能 通过 p, 加 以 估计 ,所 以 伯 克 森 CBerkson) 提 出 将 下 (p,) 对 x 
进行 回归 。 因 而 ,通过 LS 变换 模型 : 


Fi(p)=xBTv, t=1,"%,T (14. 25) 


加 以 估计 。 误 差 项 v= 二 F-1(p,) 一 FT1(p,) 是 异 方 差 的 , 当 六 增 大 时 其 方差 减 小 ， 
从 而 b, 是 p, 的 一 个 较 好 估计 值 ,同时 还 将 依赖 于 FC ) 的 形状 。 由 泰勒 级 数 展开 
式 [参见 雨 官 (Amemiya, 1981, 第 1 498 页 ) 或 马达 拉 (Maddala, 1983, 第 31 页 )」， 
Th 具有 方差 , 它 通过 : 

力 (1 一 户 ) 
N[F (CF-!'(p,)) 
一 致 地 估计 出 。 伯 克 森 最 小 卡 方 估计 量 (Berkson’s minimum chi-square estimator) 
Bx 是 对 加 权 残 差 和 忆 二 ,(F-1(p,) 一 xB)/5? 求 关于 8B 的 极 小 值 。 这 很 容易 通过 
F(zp,)/6 对 /6 的 OLS 回归 计算 出 来 。 

这 种 估计 量 实 施 起 来 简单 ,原因 在 于 它 只 需要 OLS 程序 包 。 不 过 , 它 是 完全 
有 效 的 ,因为 可 以 证 明 , 它 与 将 每 个 观测 值 分 开 处 理 而 不 是 将 观测 值 分 组 成 含有 共 
同 回归 元 值 x 单元 的 MLE 具有 相同 的 渐 近 分 布 。 对 于 logit 模型 来 说 ,由 于 
1(p) 二 In(B,/(1 一 Bp,)) 目 5? 二 1/[LN,p,(1 一 p.)j ,所 以 该 估计 量 尤其 简单 。 

最 小 卡 方 估 计量 的 一 个 优点 是 , 它 计算 简单 方便 ,尽管 计算 机 运算 能 力 的 不 断 
进步 使 得 这 一 点 不 再 重要 。 分 组 经 济 数据 极 少 存在 ,使 得 每 组 回归 元 的 唯一 值 内 
拥有 许多 观测 值 ,除非 回归 元 是 少数 几 个 指示 变量 。 然 而 ,该 方法 会 提供 加 总 的 见 
解 ,现在 就 考察 这 个 专题 。 


14. 6.2 含有 加 已 数 据 的 侍 订 


加 总 数据 (data aggregation) 的 经 济 计 量 学 例子 ,包括 工作 人 员 的 比例 数据 以 
及 住 在 不 同 地 区 乘 公交 车 往返 的 那些 通勤 人 员 的 比例 数据 ,这 可 借助 于 某 地 区 人 
员 平 均 特征 的 数据 加 以 解释 。 

举 一 个 例子 ,假定 p, 等 于 地 区 1 的 失业 率 ,而 x 等 于 地 区 上 的 受 教育 平均 水 
平 。 一 种 可 能 模型 是 把 p, 对 进行 LS 回归 。 因 为 当 0<p, 过 1 时 ,许多 研究 要 变 


2 一 
t 


0 (14. 26) 
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换 因 变量 使 其 成 为 无 界 的 , 故 可 估计 模型 : 





nm 人 (5 )=&6T+w (14. 27 ) 


其 中 ,wu 表示 误差 。 

这 个 模型 看 起 来 类 似 于 , 当 1(p,) 王 In(p,/(1 一 p,)) 时 ,logit 模型 的 最 小 卡 
方 佑 计量 。 然 而 , 它 却 不 是 ,因为 只 有 第 1 个 单元 (cell) 中 的 所 有 回归 元 都 取 同 一 
值 时 , 伯 克 和 森 估 计量 才 是 适宜 的 。 相 反 , 这 里 的 回归 元 可 取 不 同 值 ,因为 地 区 1 的 
不 同人 员 将 具有 各 不 相同 的 受 教 育 水 平 。 

为 了 理解 回归 元 存在 单元 内 异 质 性 (with-cell heterogeneity) 时 加 总 的 后 果 , 假 
定 个 体 水 平 模型 是 满足 

y’: =—=x; Tu, 
u;~N|0, 1 | 


的 指标 模型 (参见 14. 4. 1 节 )。 我 们 选择 以 正 态 误差 情况 开始 研究 ,这 对 应 于 
probit 模型 而 不 是 logit 模型 ,因为 可 能 获得 解析 结果 。 对 于 单元 i 中 的 个 体 来 说 ， 
将 异 质 性 建 模 成 : 


Xi 一 ML ’ 5, | 


现实 中 介 许 对 不 同 单元 出 现 变 异 , 而 且 一 种 新 的 复杂 问题 是 五 关 0, 所 以 存在 单元 
内 蜡 质 性 ,于 是 ,在 地 区 :, 以 8 以 及 也 为 条 件 , 有 : 
Pr| y;=1]=Pr| (x;6B 二 wu;>0] 
—Pr| 22 二 we 二 ua、 一 | 
-0( 
Vit+B EB 
其 中 ,运用 了 已 知 前 面 假设 时 的 x68 十 u; 一 NLiwB，(1 十 8 及 B)], 然 后 减 去 均值 ， 
再 用 标准 差 去 除 ,由 此 变换 成 标准 正 态 变量 。 
已 知 式 (14. 24) 时 ,通过 类 似 推理 得 出 式 (14. 25) ,基本 的 个 体 层 次 二 值 选择 参 
数 8 能 够 通过 回归 : 
D7! 9) A (14. 28) 
中 8 的 非 线性 LS 估计 来 得 到 一 致 估计 ,其 中 ,5, 与 x, 均 表 示 单 元 上 平均 值 ,而 S 
表示 单元 上 中 x; 的 样本 方差 。 伯 殉 森 最 小 卡 方 估计 却 是 把 下: (5) 对 x 进行 回 
归 ,并 且 关 于 6 是 非 一 致 的 ,除非 五 二 0， 


14. 6. 3 讨论 


加 总 问题 在 非 线 性 模型 中 表现 得 更 加 复杂 。 厅 最 初 个 体 水 平 模型 是 线性 模型 
六 一 了 十 ,在 第 i 个 单元 中 满足 Xi 一 人 AL ? 二 | ,那么 相对 应 的 Yi 对 及 线性 问 
归 会 产生 6B 的 一 致 估计 值 。 就 非 线 性 模型 而 言 ,类 似 地 ,加 总 会 产生 个 体 水 平 参数 


Ab 二 值 结果 模型 
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的 非 一 致 估计 ,除非 进行 调整 ,使 得 式 (14. 28) 成 立 。 进 一 步 地 ,归功 于 麦克 法 登 和 
里 德 (McFadden and Reid, 1975) 的 14. 6. 2 节 中 例子 是 与 众 不 同 的 ,因为 非 线 性 模 
型 加 总 却 导 致 了 容易 处 理 的 结果 。 这 个 例子 曾 由 卡 梅 伦 (Cameron，1990) 做 出 相 
当 详 细 的 讨论 ,他 在 非 线性 模型 加 总 (aggregation in nonlinear models) 的 较 广 泛 背 
景 下 加 以 考察 。 

加 总 的 活跃 领域 一 一 离散 选择 ,通常 是 多 项 式 选 择 方面 关于 品牌 商品 市 场 份 
额 的 市 场 营 销 文献 。 苏 伦比 和 罗斯 (Allenby and Ross，1991) 曾 经 阐述 拟 合 加 总 
logit 模型 偏 倚 可 能 不 是 很 大 的 例子 。 更 为 重要 的 是 ,最 近 的 计算 进展 使 得 含有 加 
总 数据 的 个 体 层 次 参数 的 估计 成 为 可 能 ,即使 加 总 会 没有 产生 闭 形式 解 。 例 如 , 参 
见 册 里 和 内 族人 Berry and Nevo，2001) ,他 们 在 性 质 上 类 似 于 15.7 节 中 随机 参数 
logit 模型 对 模型 进行 估计 。 

最 后 ,注意 到 ,在 含有 加 总 比例 数据 的 许多 应 用 中 ,诸如 地 区 失业 率 ,不 存在 对 
个 体 层 次 参数 进行 估计 的 愿望 。 唯 一 目标 是 ,对 因 变 量 p, 位 于 0 与 1 之 间 做 出 一 
个 合理 模型 。 于 是 ,线性 模型 (14. 27) 或 许 是 优秀 的 。 式 (14. 27) 的 误差 将 不 再 具 
有 式 (14. 26) 给 出 的 方差 。 不 过 , 它 将 仍 是 异 方 差 的 , 故 统计 推断 应 建立 在 怀特 异 
方差 稳健 标准 误差 的 基础 上 。 


14. 7 ” 半 参 数 佑 计 


二 值 结果 模型 或 许 是 半 参 数 回归 的 重要 例子 。 大 多 数 经 济 计量 学 研究 假定 单 
指标 形式 F(x;B), 其 中 ,关于 下 的 函数 形式 是 没有 设 定 的。 目标 是 获得 8 的 如 下 
估计 值 :关于 6 是 一 致 的 .理想 上 VN 一 致 的 且 渐 近 正 态 的 ,而 F(*) 被 认为 是 元 余 
次数 。 人 们 能 应 用 9. 7. 4 节 的 单 指标 模型 半 参 数 估 计量 。 另 一 些 估 计量 探讨 了 指 
标明 数 模型 的 二 值 结果 的 解释 。 此 外 ,达到 半 参 数 有 效 界 的 半 参 数 ML 估计 是 可 
能 的 ,这 一 方法 很 少 需要 额外 假设 ,因为 很 明显 ,分 布 是 贝 努 利 分 布 ,而 且 仅 有 
FGxB) 是 未 知 的 。 


14. 7. 1 羊 参 数 条 件 均 伸 侍 计 
估计 间 题 通常 是 因 变 量 取 值 0 或 1, 满足 条 件 均 值 ， 
El yx 一 (Xi ) 


其 中 ,mm(。) 表示 未 知 的 。 注 意 到 ,m(x;) 同样 等 于 > 一 1 的 条 件 概率 。 

不 管 因 变 量 的 二 值 性 质 怎 样 , 可 应 用 9. 4 节 至 9. 6 节 的 非 参 数 回归 方法 。 这 
很 容 多 从 图 14. 1 中 看 出 ,二 值 变 量 y 对 纯 量 回归 元 z 的 散 点 图 ,作为 y 对 z 的 核 
加 归 的 一 个 目 然 备 选 者 。 硅 暂且 不 谈 异常 情况 ,例如 当 使 用 较 高 阶 核 时 ,在 此 情况 
下 拟 合 值 能 取 负 值 , 则 拟 合 值 将 位 于 0 与 1 之 间 。 

”在 许多 微观 经 济 计量 学 应 用 中 ,就 发 挥 良 好 作用 的 非 参 数 方法 来 说 ,x 具有 太 
高 维度 ( 维 数 祸根 )。 部 分 设 定 m(， ) 的 半 参 数 回 归 模 型 已 由 9.7 节 给 出 。 可 加 模 
型 在 条 件 应 用 中 相当 流行 。 在 经 济 计量 学 中 ,反而 运用 单 指标 模型 ,因为 受 欢 迎 的 
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起 点 是 14. 4. 1 节 指 标 函 数 模型 。 当 潜 变 量 y* = 二 x B 十 wu 时 ,就 得 到 单 指标 模型 
(single-index model) 。 因 而 ,我 们 有 : 


ELy;|x; ]=F(x;B) 


其 中 ,遵循 本 章 的 记号 ,用 F(.) 而 不 是 g(.) 表 示 未 知 函 数 。 

由 9.7.4 节 知 ,G 是 唯一 可 识别 的 ,至 多 相差 位 置 与 标 度 。 由 14. 4. 1 节 知 ,这 
很 明显 ,其 中 ,指标 模型 中 的 误差 xx 被 正规 化 成 具有 0 均值 (位 置 ) , 且 其 方差 需要 
加 以 设 定 ( 标 度 ) 。 此 处 ,对 zx 没有 施加 约束 ,因此 8 不 是 完全 可 识别 的 ,但 斜率 系 
数 的 比率 是 可 识别 的 。 参 见 曼 斯 基 (Manski，1988b) 对 二 值 选择 模型 识别 的 详细 
分 析 。 

B 的 一 致 浙 近 正 态 估计 值 能 通过 平均 求 导数 估计 ,或 通过 半 参 数 最 小 二 乘法 
来 获得 (参见 9. 7.4 节 )。 不 过 ,针对 二 值 结 果 特 有 的 一 些 可 供 选 择 估计 量 更 经 常 
被 使 用 。 


14. 7.2 最 大 得 分 信 计 


二 值 结 果 的 半 参 数 估 计量 常常 建立 在 关于 二 值 结 果 的 指标 函数 模型 y* = 
xG 十 基础 上 。 在 这 种 情况 下 ,将 模型 写成 ; 


y;=1(xiB +u;>0) 


会 很 方便 ,其 中 , 当 事 件 A 发 生 时 ,有 1(A) 二 1。 
坚 斯 基 (IManski，1975 ) 发 现 , 由 于 wu; 是 未 知 的 , 令 4 二 0， y; 的 预测 值 是 
1 (xD 二 0) ,在 此 情况 下 ,正确 预测 次 数 的 得 分 为 : 


~N 
SN(B8) = > {yx > 0)+ 0 y)1x8 < 0)) (14. 29) 
;一 1 


因为 当 yw=1 且 1G0cs@>>0) 时 ,或 当 yw= 一 0 且 1068 委 0) 时 ,都 会 得 到 正确 预测 。 
曼 斯 其 的 最 大 得 分 估计 量 (maximum score estimator) 是 求 SN(B) 极 大 值 的 解 。 这 
是 一 个 非 标 准 问题 ,因为 1(x;@ 0) 在 B 处 不 可 徽 。 曼 斯 基 (Manski，1975， 
1985) 已 经 建立 了 一 致 性 假设 ,或 等 价 地 有 ,Median| wi|xj 二 0。 然 后 ,可 以 证 明 ， 
N33( [8 一 B) 服从 非 正 态 极限 分 布 ,尽管 推断 可 利用 自助 法 来 执行 [ 曼 斯 基 和 汤 
普 森 (Manski and Thompson，1986) |]。 

曼 斯 基 估 计量 可 被 看 成 最 小 绝对 偏差 估计 量 。 由 4. 6.2 节 知 ,LAD( 最 小 绝对 
偏差 ) 估 计量 是 求 y; 与 Median| y; |x;] 之 间 绝 对 差 之 和 的 最 小 值 。 这 种 不 熟悉 的 
估计 量 , 在 性质 上 类 似 于 LS 估计 量 ,LS 佑 计量 是 求 y 与 EL yi |x | 之 间 绝 对 差 之 和 
的 最 小 值 。 为 了 实施 LAD, 此 处 需要 获得 Median| yi |x; ]。 当 MedianLw |x; j= 二 0 
时 ,Median[ y* |x;j 一 XB ,所 以 Median[ y;|x;] 二 1(x B80)。 因 此 ,二 值 结果 模型 
LAD 估计 量 (binary outcome model LAD estimator) 是 求 


N i 
QNB) = 2 |y;—1x8>0)| (14. 30) 
i=1 


的 极 小 值 。 由 习题 14. 4 知 ,Qw(B) 二 N 一 Sn(B), 故 最 大 得 分 估计 量 等 于 LAD 估 
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计量 。 关 于 最 大 得 分 估计 量 作 为 LAD 佑 计量 的 其 他 一 些 解释 ,可 参见 曼 斯 基 
(Manski，1985 ,第 320 页 )。 

由 式 (14. 29) 给 出 的 最 大 得 分 估计 量 , 其 目标 函数 Sy(B) 不 是 可 微 的 。 它 能 重 
新 写成 


N N 
SN(B) = D2y— DIB >0)+NDo— >,y: 
:一 ] 1 一 ] 


参见 习题 14. 4。 第 二 个 求 和 可 被 忽略 挥 , 因 为 它 不 涉及 B，。 
具有 可 微 目标 限 数 的 估计 量 是 乱 罗 威 尝 (Horowitz，1992) 的 光滑 最 大 得 分 估 


计量 (smooth maximum score estimator) , 它 是 求 


QS (8) = > cy — K(x’B /hy) 


的 极 大 值 ,其 中 ,K(x 6B/hw) 表 示 1(x B 守 0) 的 光滑 形式 。 由 于 对 x 8 的 负 值 来 说 ， 
1(x B 守 0) 等 于 0, 并 且 对 xB 的 正 值 来 说 ,1(x 30) 王 1, 所 以 选取 K(，) 为 满足 
K(0) 二 0.5 的 cdf, 同 时 选取 hn 为 很 小 的 ,这 样 做 是 很 自然 的 。 光 滑 使 得 该 估计 量 
的 计算 得 以 简化 ,但 分 析 却 是 错综复杂 的 ,因为 要 求 当 N 一 co 时 ,hn 必须 以 适当 速 
率 hw>0。 此 估计 量 以 接近 于 vN 的 速率 收 化。 对 于 详细 内 容 , 参 见 霍 罗 威 艾 
(Horowitz，2002) ,他 曾经 阐述 有 限 样 本 中 允许 检验 含有 较 好 水 平 性 质 的 上 自助 法 
(使 检验 具有 较 好 水 平 性 质 成 为 可 能 的 目 助 法 )。 
可 将 LAD 佑 计量 推广 到 删 失 回归 模型 (参见 16. 9. 2 节 ) 。 


14. 7.3 最 大 秘 析 关 信 计量 


以 满足 ELy 1x;] 二 FCGxB) 的 单 指标 模型 开始 研究 。 若 F(xi;B ) 关 于 xiB8 是 单 
调 递增 的 , 当 允 EGG , 则 EL[y1x]>ELy |x;]。 因 而 ,虽然 不 能 保证 下 述 情 况 ， 
但 可 能 会 出 现 当 X8>xB 时 ,观测 值 x 盖 。 这 就 建议 了 , 当 %8>%B 时 ,选取 
8 确保 高 频数 yi yi o 

哈恩 (Han，1987) 的 最 大 秩 相 关 (maximum rank correlation，MRC) 估 计量 选 
择 G, 使 : 


N N 
QRC (G8) = 2 2 lOy; > y)1xB > x +1lCy < y)1x8 < xB) 
ey 


若 当 xB>WG 时 y; 之 yj ,或 若 当 xiB 二 x B 时 yy; 二 yj;, 则 此 和 式 中 第 池 项 等 于 0， 
而 若 存在 符号 反 向 的 情况 ,以 致 当 xO>W%B 时 yi<y ,或 者 XB 二 %B 时 yy; 之 yj;, 则 
第 地 项 等 于 1。 将 该 估计 量 称 为 最 大 秩 相关 估计 量 , 因 为 Qv*(B) 是 yi 与 xB 之 
间 肯 德尔 秩 相 关系 数 的 倍数 。 

这 个 估计 量 是 vN 一 致 的 且 渐 近 正 态 的 [参见 含 曼 (Sherman，1993 ) ] 。 


14.7. 4 举 参 闪 ML 信和 计 


对 于 二 值 选择 数据 来 说 ,给 定 独立 观测 值 时 , 似 然 函 数 显然 是 由 式 (14. 4) 给 出 
的 形式 。 唯 一 的 复杂 情况 是 下 〈") 为 未 知 的 。 殉 莱 因 和 斯 由 迪 ( 玫 lein and Spady， 
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1993) 已 经 提出 半 参 数 MLE(semiparametric MLE) , 它 是 对 
~N 
Ln CB) = {yiln FB) + (1 my)ln(l Om— F(x B))) 
A | 


求 极 大 值 ,其 中 ,F(xiB) 表 示 F(xiB8 ) 的 非 参 数 估计 值 。 

这 一 估计 量 , 在 思想 上 类 似 于 9. 7. 4 节 详 述 的 市 村 (Ichimura，1993)WSLS 估 
计量 ,并 且 在 给 定 天时 计算 语 与 给 定 B 时 计算 到 之 间 , 和 迭代 计算 时 会 出 现 类 似 问 
题 。 已 知 ML 一 阶 条 件 (14. 5) , 半 参 数 MLE 还 能 被 计算 成 方程 

F (xB) 
2 Fx BI FC BY 
的 解 , 这 与 含有 权 数 w; 二 所 /[F;(1 一 F;)] 的 WSLS 估计 量 (WSLS estimator) 的 那 
些 情况 一 样 。 

克 莱 因 和 斯 帕 迪 估计 量 的 吸引 人 之 处 是 ,在 它 达到 半 参 数 有 效 界 时 是 完全 有 
效 的 。 不 过 ,计算 极为 困难 。 详 细 内 容 参 见 9.7. 4 节 , 其 中 类 似 计 算 问 题 曾 对 市 村 
的 WSLS 估计 量 讨 论 过 ,并 参见 克 莱 因 和 斯 帕 迪 (Klein and Spady，1993) ,以 及 由 
甘 和 乌拉 (Pagan and Ulliah，1999 ,第 283 一 285 页 ) 。 


14.7. 5 举 参数 信 计 量 的 比较 


经 济 计量 学 家 关注 单 指 标 模 型 ,而 且 其 至 于 对 二 值 结果 模型 来 说 ,存在 大 量 可 
利用 的 半 参 数 估 计量 。 这 些 估计 量 中 的 任 一 个 都 不 是 特别 简单 易 行 的 。 目 标 函 数 
具有 多 重 最 优 值 且 不 是 光滑 的 。 例 如 , 霍 罗 威 茨 (Horowitz，1992) 运 用 光滑 最 大 
得 分 估计 量 的 模拟 退火 ,而 多 西 尔 和 迈 耶 (Dorsey and Mayer，1995) 使 用 遗传 算法 
来 获得 最 大 得 分 估计 量 。 

对 系数 进行 解释 同样 是 困难 的 。 例 如 ,用 于 钓鱼 方式 数据 的 最 大 得 分 估计 量 
会 得 出 0.776 截 距 估 计 值 ,而 一 0. 631 斜率 估计 值 (其 自助 法 估计 的 标准 误差 为 
0. 103) ,但 这 些 系数 都 不 可 直接 与 表 14. 2 给 出 的 那些 值 进行 比较 。 实 际 上 ,由 于 
参数 斜率 估计 值 至 多 差 一 个 标 度 都 是 恰好 识别 的 ,所 以 如 果 几 个 系数 都 包含 在 回 
归 中 , 且 系 数 估 计 值 都 可 以 与 参考 变量 的 那些 值 进行 比较 ,那么 半 参 数 估 计 值 是 相 
当 有 用 的 。 

在 不 需要 使 用 光滑 系数 诸如 带宽 选择 这 一 引 人 注 目的 性 质 的 半 参 数 估 计量 之 
间 , 最 大 得 分 估计 量 与 最 大 秩 相关 估计 量 均 与 众 不同 。 这 两 个 估计 量 中 ,后 者 是 v N 
一 致 的 。 z 

在 最 近 的 研究 工作 中 , 布 伦 德尔 和 鲍威尔 (Blundell and Powell，2004) 曾 经 提 
出 了 含有 内 生 回 归 元 (endogenous regressors) 的 半 参 数 估计 。 


14.8 ”第 1 类 极 值 的 logit 推导 


源 自 ARUM 的 14. 4. 2 节 logit 模型 的 推导 使 用 了 下 述 条 件 结果 的 知识 ;独立 
的 第 I 类 极 值 随机 变量 的 差 so 一 sl 是 逻辑 斯 带 分 布 。 为 了 完整 起 见 , 我 们 提供 建 


:— F(xB))x 一 0 
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立 在 EO 与 El 分 布 基础 上 的 直接 推导 。 
将 式 (14. 20) 的 第 二 行 重新 写 出 ,得 到 : 


Prl y 一 1 | = Prleo < sl 十 V 一 Yo (14.31) 7 
oo <1 十 Y 一 Y0 
=| fleo, ei) deode, 
Ca E]1 十 Y 1 一 Yn0 
=- | fle) (| feo deo ) de 


其 中 ,最 后 一 行 eo 与 el 均 被 假定 成 独立 的 。 通 过 将 f(eo) 限 定 成 第 I 类 极 值 密度 ， 
式 (14. 317 变 成 ， 


Pr[y 一 可 一 | fe){) "eexp( 一 em) 起 jd (14. 32) 
=| fle dLexp(— er ) J de, 
=| fle)exp— et ) ge 
利用 式 (14. 32) 关 于 ei 的 极 值 密度 ,得 到 : 
Priy=1|= | exp(—e ™)exp(—e ‘WV VY ) de (14. 33) 
=| er {exp(—e™ — et) ) de 
=| em {exp(— em —ere WM) } de 
— | exp{— en (十 ev )}de, 
由 于 | ”aeexp( 一 ae*)de 二 1, 可 得 | erexp( 一 ae de 一 1/a。 利用 式 (14. 33) 


及 a 三 1 十 e 0, 得到. 


Prliy=1|]= (二 +e nn) (14. 34) 
= 一 2V1 / (eo evi ) 
: -一 eV 一 of/(] 二 er 0 ) 


车 令 Vi 一 Vo 二 x6, 则 得 到 logit 模型 。 
14.9 应 用 研究 


大 多 数 软 件 包 都 提供 probit 与 logit 模型 佑 计量 。 对 于 应 用 者 来 说 ,主要 抉择 
是 运用 哪 一 个 模型 。 在 实际 应 用 中 ,除非 大 部 分 结果 都 是 0 或 大 部 分 结果 都 是 1， 
否则 从 这 两 个 模型 获得 的 预测 边际 效应 差异 很 小 。 

尽管 Lindep 可 实施 曼 斯 基 以 及 克 莱 因 和 斯 帕 迪 估计 量 , 但 通常 半 参 数 估 计 要 
求 运 用 诸如 GAUSS 语言 进行 特殊 编程 。 
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14. 10 ”文献 注释 


logit 二 probit 模型 是 广泛 运用 且 相 对 简单 的 非 线 性 回归 模型 ,它们 出 现在 许 
多 标准 教科 书 中 ,例如 格林 (Greene，2003) 的 书 。 由 雨 写 (Amemiya，、，1981) 与 麦克 
法 登 (McFadden，1984) 撰写 的 综述 包含 了 所 有 基本 结果 。 马 达 拉 (Maddala， 
1983) 与 雨 居 (Amemiya, 1985) 的 书 提供 了 更 为 详细 的 内 容 。 在 应 用 方面 , 特 雷 恩 
(Train, 1986) \ 本 ，“ 阿 基 瓦 和 革 尔 曼 (Ben-Akiva and Lerman，1985) 的 书 是 特别 
好 的 。 这 些 参 考 书 既 涵盖 二 值 结果 ,又 涵盖 多 项 式 结果 。 

14.3 为 了 男 出 剂量 死亡 率 曲 线 (dosage-mortality curves), 布 利 斯 (Bliss， 
1934) 提 供 probit 变换 。 伯 克 森 (Berkson，1951) 则 推动 了 最 简单 logit 模型 的 广 
这 运用 。 

14.4 ” 浒 变量 模型 在 心理 测验 文献 中 尤其 流行 。 

14.5 雨 宫 (Amemiya, 1985,9.5 节 ) 提 供 二 值 结 果 模 型 的 基于 选择 抽样 的 一 
个 优秀 综述 。 也 可 参见 24. 4 节 。 

14.6 卡 梅 伦 (Cameron，1990) 考 察 二 值 结果 模型 中 的 加 总 问题 ,同时 对 凯利 
吉安 (Kelijian，1980) 与 斯 托 克 (Stoker，1984) 关 于 利用 加 总 数据 的 非 线 性 模型 中 
个 体 水 平 参数 可 估计 性 的 一 般 性 结果 加 以 归纳 总 结 。 

14.7 和 曼 斯 基 (Manski,，1975) 的 最 大 得 分 估计 量 是 半 参 数 回归 的 早期 一 个 重 
要 例子 。 关 于 二 值 结果 模型 的 半 参 数 方法 已 由 李 明 宰 (IM-J. Lee，1996) . 堆 罗 威 蒋 
(Horowitz，1997) 以 及 帕 甘 和 乌拉 (Pagan and Ullah，1999) 氛 写 的 书 涵 盖 。 后 者 
文献 中 涵盖 了 许多 方法 。 


习 起 


14-1 考察 由 y= 二 xB 十 e; 建 立 的 潜 变 量 模 型 ,其 中 6;~-NM[0, 1]。 假 定 只 有 
当 yy <<U; 时 ,观测 到 y; 二 1, 而 只 有 当 yj 之 Ui; 时 ,观测 到 y; 二 0, 就 每 个 个 体 而 言 ， 
上 极限 U; 是 已 知 稍 值 ,而 对 不 同 个 体 来 说 可 能 是 不 同 的 。 

(a) 求 PrLy = 二 1|x;]。L 提 示 : 注 意 到 ,这 既 由 于 U; 的 存在 而 不 同 于 标准 情况 ， 
又 因为 当天 过 LU 时 有 yi 一 1 而 要 转变 一 些 等 式 。 | 

(b) 请 提供 一 致 估计 6 的 估计 方法 的 细节 。 

(c) 假定 估计 这 一 模型 ,并 求 第 三 个 回归 元 zx 具有 估计 系数 B; 一 0.2。 给 出 
B; 有 意义 的 解释 。 

14-2 考察 满足 Pr[y 二 1|xi ,zz 一 A(B 十 Bix; 十 Bxz;) 的 logit 模型 ,其 中 ， 
人 (z) 一 姑 / (1 十 er ) 。 

(a) 以 推广 形式 写 出 似 然 得 分 以 及 信息 和 抢 阵 。 

(b) 利用 这 些 推导 沃 尔 德 检验 以 及 LM 得 分 检验 百 。: 应 一 0。 

(c) 请 解释 你 如 何在 计算 上 实施 检验 。 

(d) logit 模型 在 什么 意义 下 内 在 地 成 为 异 方差 ? 
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14 -3 假定 对 离散 选择 模型 使 用 指标 公式 ,但 认为 潜 变量 是 严格 正 的 。 这 通 
过 假定 潜 变 量 y* 具有 指数 密度 而 得 以 适应 ,其 参数 为 7, 因此 ,密度 f(y’) 成 为 
f(y ) 二 y 'exp( 一 y* /7Y) ,满足 Y 一 exp(xB)。 当 yy’ 之 Za 时 ,才能 观测 到 y= 二 1; 而 
当 y* zz a 时 ,才能 观测 到 y 一 0。 

(a) 给 出 观测 数据 的 对 数 似 然 函 数 。 

Cb) 当 zi 变动 一 个 单位 时 ,对 PrLy 二 1] 的 效应 是 多 少 ? 

(c) 假定 当 y* 之 exp(z a ) 有 上 月 x 二 z 时 ,y 二 1]。 在 识别 a 以 及 /或 者 8 时 ,你 会 
看 到 什么 问题 ? 请 解释 你 的 答案 。 

14-4 考察 含有 式 (14. 29) 给 出 的 目标 函数 Sv(B) 以 及 (14. 30) 给 出 的 
QN(B) 的 最 大 得 分 售 计 量 。 

(a) 证 明 SN(68) 二 [1Cy; 二 1)X1(xB8 守 0) 二 1(y; 二 0) X1(x68 坟 0)]。 

(b) 证 明 Qn (68) 二 [1(y= 二 1)X1G%BS0)+1(y;=0 )X1(xB>0)]。 

(c) 利用 1Cy; 二 1)= 二 1 一 1(y; 二 0) ,证 明 QN(B8) 二 N 一 Sy (68) 。 

(d) 利用 1(0x6 委 0)= 王 1 一 10xG>0) ,证 明 式 (14. 29) 能 重新 写成 Sv (6B) 二 
2i(2y 一 1)10GD>0) 十 一 2iyin 

14-S 运用 16.6 市 的 健康 消费 数据 。 模 型 是 DMED 的 probit 模型 。 
DMED 表示 正 的 健康 消费 的 指示 变量 ,为 了 简单 起 见 , 仅 对 应 于 单一 回归 元 NDIS- 
EASE, 即 慢性 病 数量 。 

(a) 求 斜 率 参 数 的 OLS 估计 。 

(b) 求 斜 率 参 数 的 probit 估计 。 

(0) 已 和 (b) 部 分 ,以 两 种 方式 求 出 慢性 病 的 边际 效应 :样本 的 平均 值 以 及 
NDISEASE 样本 平均 值 处 的 估计 。 

(d) 求 斜 率 参 数 的 logit 估计 。 

(e) 已 知 (d) 部 分 ,以 三 种 方式 求 出 慢性 病 的 边际 效应 :样本 的 平均 值 `、NDIS- 
EASE 样本 平均 值 处 的 估计 以 及 在 和 (x8) 二 5 处 的 估计 ，。 

(f) 对 于 logit 模型 来 说 , 当 NDISEASE 变化 时 ,计算 优势 比 的 比例 变化 。 

14-6 继续 习题 14. 5 的 分 析 。 

(a) 根据 NDISEASE 的 统计 显著 性 ,比较 三 个 二 值 模型 。 

(b) 根据 估计 的 边际 效应 ,比较 三 个 二 值 模型 。 

(c) 根据 预测 概率 ,比较 三 个 二 值 模型 。 

(d) 根据 对 数 似 然 , 比较 logit 二 值 模型 与 probit 二 值 模型 。 
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15.1 引 论 


前 面 一 章 已 经 考察 了 离散 变量 取 两 个 可 能 值 之 一 的 一 些 模型 。 本 章 考 察 具 有 
几 种 可 能 结果 的 模型 ,其 中 几 种 可 能 结果 通常 是 互 不 相交 的 。 一 些 例 子 包括 :上 下 
班 往返 通勤 采用 的 不 同方 式 ( 乘 公 交 车 .小 车 或 步行 ) .各 种 健康 保险 类 型 (一 次 一 
付 医疗 费 .管理 医疗 或 没有 参加 )、 各 种 不 同 就 业 状 况 ( 全 日 制 、 兼 职 或 没有 工作 )、 
娱乐 地 点 的 选择 .职业 选择 以 及 产品 选择 。 

正如 二 值 数 据 必 服从 贝 努 利 分 布 或 二 项 式 分 布 一 样 ,由 于 数据 必 服 从 多 项 式 
分 布 , 所 以 原则 上 统计 推断 相对 简单 直接 。 因 为 数据 显然 是 服从 多 项 式 分 布 的 ,最 
常见 的 估计 是 通过 极 大 似 然 来 完成 。 可 是 ,对 于 某 些 复杂 情况 来 说 ,反而 用 基于 算 
的 估计 。 

类 似 于 二 值 情 况 probit 与 logit 之 间 的 差别 , 因 多 项 式 分 布 概率 有 各 种 困 数 形 
式 , 故 产生 了 各 种 不 同 的 多 项 式 模型 。 在 这 些 模型 之 间 ,同样 可 区 分 ,给 定 个 体 时 
有 些 回 归 元 会 随 选 项 不 同 而 变化 的 模型 ,以 及 有 些 回 归 元 随 选 项 不 同 而 为 常 值 的 
模型 。 例 如 ,在 运输 方式 选择 中 ,一 些 回归 元 诺 如 旅行 次 数 或 成 本 将 会 随 选 项 不 同 
而 变化 , 而 其 他 一 些 回归 元 譬如 年 龄 却 是 不 随 选项 而 变化 的 。 

一 种 最 简单 的 多 项 式 模型 , 即 条 件 logit 模型 或 多 项 式 的 logit 模型 ,运用 起 来 
相当 简单 易 行 ,但 在 实际 应 用 中 却 被 认为 其 约束 性 太 强 ,尤其 是 当 多 项 式 结 凡 数据 
源 自 个 体 选 项 时 。 对 于 无 序 结果 来 说 , 稍 欠 约束 的 模型 能 利用 随机 效用 模型 来 得 
到 。 在 此 模型 中 ,具有 最 高 效用 的 选项 被 选 上 ,其 中 ,来 自 每 一 个 选项 的 效用 都 是 
确定 性 成 分 之 和 。 对 随机 成 分 的 各 种 不 同 设 定 导 致 了 选择 概率 的 各 种 水 数 形式 ， 
从 而 产生 各 种 不 同 的 多 项 式 模型 。 在 一 些 应 用 中 ,对 决策 过 程 施加 某 种 结构 时 ,请 
加 选项 的 自然 顺序 或 者 决策 次 序 , 就 会 出 现 其 他 模型 。 人 们 会 在 实际 中 应 用 许多 
不 同 的 多 项 式 模 型 。 

15. 2 节 运 用 例子 阐述 本 章 将 要 讨论 的 问题 。15. 3 节 给 出 多 项 式 模 型 的 一 般 


节 阐 述 。 峙 入 式 logit 随机 参数 logit 以 及 多 项 式 probit 模型 将 是 15. 6 节 至 15. 8 
节 的 主题 。 有 序 与 时 序 模 型 将 在 15. 9 节 详 述 。 拥 有 多 于 一 个 离散 变量 的 多 变量 
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模型 在 15. 10 节 加 以 阐述 。 半 参数 估计 量 则 在 15. 11 节 简 略 讨论 。 


15.2 例子 :钓鱼 方式 的 选择 


本 节 曾 述 多 项 式 , 即 最 简单 的 无 序 多 项 式 模型 ,并 在 15. 4 节 详 述 允 许 回归 元 
随 着 选项 而 变化 的 一 些 变形 。 强 调 内 容 放 在 对 估计 模型 的 解释 上 。 与 通常 单个 条 
件 均值 的 影响 相 比 ,回归 元 变化 的 边际 效应 更 为 复杂 。 对 于 多 项 式 数 据 来 说 ,每 一 
个 结果 都 存在 各 自 对 概率 的 边际 效应 ,同时 由 于 这 些 概 率 之 和 为 1, 所 以 其 边际 效 
应 之 和 为 0。 

对 钓鱼 方式 的 选择 就 是 一 个 应 用 。 因 变量 > 取 值 1.2.3 或 4, 它 们 分 别 表示 选 
择 岸 边 、 码 头 、 私 家 船 以 及 租 船 这 四 种 相互 排 帮 的 钓 色 方式 。 无 序 多 项 式 模型 , 诸 
如 多 项 式 logit, 适合 于 钓鱼 方式 的 选择 ,因为 结果 变量 不 存在 明显 的 排序 关系 。 回 
归 元 是 个 体 收 入 、 价 格 以 及 捕获 率 ,其 中 ,个 体 收 入 并 不 随 钓 鱼 方式 而 变化 ,价格 己 
捕获 率 则 会 随 钓鱼 方式 以 及 不 同 个 体 而 变化 。 

1 182 个 人 员 的 样本 来 自 汤姆 森 和 克 和 鲁 克 (Thomson and Crooke，1991) 实 施 
的 调查 ,并 由 赫 里 格 斯 和 克 林 (Herriges and Kling，1999) 加 以 分 析 的 研究 。 表 
15. 1 对 这 些 数据 进行 了 概括 ,给 出 选择 每 一 种 方式 人 员 子 样本 的 平均 值 以 及 回归 
元 的 整个 样本 平均 信 。 

表 15. 1 钓鱼 方式 多 项 式 选 择 :数据 概括 


子 样本 均值 
yy 一] yy 一 y 一 2 yy 一 4 

解释 变量 尾 边 码头 私家 船 租 船 所 有 yy 
收入 (每 月 1 000 美元 ) 4. 052 3. 387 4. 654 3. 881 4. 099 
岸 边 价格 (美元 ) 36 31 138 121 103 
码头 价格 (美元 ) 36 31 138 121 103 
私家 船 价格 (美元 ) 98 82 42 45 55 
租 船 价格 (美元 ) 125 110 71 75 84 
岸 边 捅 获 率 0. 28 0. 26 0. 21 0. 25 0. 24 
码头 捕获 率 0. 22 0. 20 0. 13 0. 16 0. 16 
私家 船 捕获 率 0. 16 0. 15 0. 65 0. 69 0. 63 
岸 边 捕获 率 0. 52 0. 50 0. 65 0. 69 0. 63 
样本 概率 0. 113 0. 151 0. 354 0. 382 1. 000 
观测 值 134 178 418 452 1 182 


15.2.1 条 件 logit: 效 项 变化 回归 元 


首先 ,考察 价格 与 捕获 率 的 作用 ,回归 元 会 随 着 选项 不 同 而 变化 ,只 是 对 这 些 
数据 而 言 , 岸 边 和 码头 钓鱼 的 价格 都 是 相同 的 。 

沿 着 表 15. 1 的 列 往 下 看 ,可 以 发 现 ,人 们 趋向 于 最 便宜 的 钓鱼 方式 。 例 如 ,与 
选择 其 他 钓鱼 方式 的 平均 价格 36 美元 .98 美元 以 及 125 美元 相 比 ,对 于 选择 岸 边 
， 钓鱼 的 人 来 说 ,其 平均 价格 为 36 美元 。 
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更 一 般 地 讲 , 对 于 选择 岸 边 和 码头 钓鱼 的 人 来 说 ,与 船上 钓 色相 比 , 这 两 种 方 
式 平 均 更 为 便宜 ,而 对 于 船上 钓鱼 的 人 来 说 , 与 岸 边 或 码头 钓鱼 相 比 ,平均 更 为 便 
宜 。 很 明显 ,尽管 租 船 钓 鱼 捕获 率 最 大 ,但 在 方式 选择 与 捕获 率 之 间 的 关系 含糊 
不 清 。 

对 于 随 选 项 而 变化 的 特定 选项 回归 元 ,诸如 价格 与 捕获 率 来 说 , 多项式 logit 
模型 称 为 条 件 logit 模型 (参见 15. 4. 1 节 )。 第 i 个 个 体 选择 第 ; 种 钓鱼 方式 的 概 
率 为 : 

. _ exp(BpP; 十 Ri ) - 、 
ps Pr yi) sr exp(BrPr RC) 7 
其 中 ,P 表示 价格 ,C 表示 捕获 率 , 下 标 i 表示 第 i 个 个 体 , 下 标 ;i 或 & 表示 选项 。 
该 模型 是 二 值 logit 模型 的 明显 推广 ,而 且 给 出 的 概率 位 于 0 与 1 之 间 且 和 为 1。 
其 他 一 些 多 项 式 模型 则 使 用 如 的 不 同 函 数 形 式 。 

系数 估计 ,已 由 表 15. 2 的 CL 列 给 出 。 对 于 CL 模型 来 说 ,即使 不 是 所 有 多 项 
式 模 型 ,但 对 系数 符号 可 直接 进行 解释 。 由 于 pp<0, 由 15.4.3 节 ,可 以 预期 到 ,一 
个 选项 的 价格 增加 会 减少 选择 该 选项 的 概率 ,从 而 使 得 选择 其 他 选项 的 概率 增 大 。 
类 似 地 ,由 于 EL 放 0, 所 以 一 个 选项 的 捕获 率 增加 会 增 大 选择 该 选项 的 概率 ,从 而 使 
得 选择 选项 的 概率 减少 。 

表 15.2 ”钓鱼 方式 多 项 式 选 择 :logit 估计 


模型 形式 

回归 元 类 型 系数 CL MNL 混合 的 
价格 (了 P) 特定 的 Br 一 0. 021 一 一 0. 025 
捕获 率 〈C) 特定 的 Br 0. 953 一 0. 358 

截 距 不 变 的 oa : 尾 边 一 0.0 0.0 
az : 人 码头 一 0. 814 0. 778 
om : 私家 船 0. 739 0. 527 
a 3: 租 船 一 1. 341 1. 694 

收入 不 变 的 Bn : 一 0.0 0.0 
Br : 一 一 0. 143 一 0. 128 
Bra: 一 0. 092 0. 089 
Bn: 一 一 0. 032 一 0. 033 
一 In 世 一 1311 一 1 477 一 1 215 
伪 R? 0. 162 0. 099 0. 258 


* 何 归 元 类 型 是 特定 选项 (价格 与 捕获 率 ) 或 不 变 选 项 (和 收 人 )》。 结 果 是 :(1) 必 边 :(2) 码头 ;(3) 私家 
船 ;(4) 租 船 。MLE 估计 值 是 条 件 logit(CL) 多项式 logit(MNL) 以 及 混合 logit( 混 合 ) 模 型 。MNL 模型 与 
混合 模型 被 正规 化 为 基准 岸 边 类 别 。 除 了 8 之 外 ,所 有 估计 值 在 5 名 上 都 是 统计 显著 的 。 


对 回归 元 变动 所 产生 影响 的 标准 测量 是 N-1 了 Yapv /az , 即 对 于 第 & 种 选 
项 来 说 , 当 第 > 个 回归 元 增加 一 个 单位 时 ,选择 第 ; 项 概率 的 平均 边际 响应 ,同时 对 
其 他 选项 来 说 则 是 不 变 的 。 对 于 CL 模型 而 言 , 这 可 通过 N -1 Dp (G65 一 Bn) 
估计 [参见 式 (15. 38)], 其 中 , A 表示 8 的 估计 值 ,而 Ps 表示 预测 概率 ,j= 二 1,…,m。 
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对 于 四 种 不 同 模型 的 两 个 回归 元 即 价格 与 捕获 率 的 平均 响应 ,已 由 表 15. 3 给 
出 。 该 表 给 出 价格 上 变动 100 个 单位 (或 100 美元 ) 时 ,选择 概率 的 效应 以 及 捕获 
率 变 动 一 个 单位 时 的 效应 。 例 如 , 岸 边 钓鱼 价格 增加 100 美元 时 ,分 别 导 致 岸 边 钓 
鱼 \ 人 码头 钓鱼 、 私 家 船 钓 鱼 以 及 租 船 钓鱼 的 概率 减少 0. 272 、 增 大 0. 119 . 增 大 0. 080 
以 及 增 大 0. 068。 注 意 到 ,如 人 们 所 料 , 其 概率 变化 之 和 为 0。 


表 15.3 钓鱼 方式 选择 ;条件 logit 模型 的 边际 效应 


价格 变化 100 美元 捕获 率 变化 一 个 单位 
评 边 。 码头 ”私家 船 租 船 必 边 ”码头 ”私家 船 租 船 
Pr[ 岸 边 ] 变 化 ”一 0.272 0.119 0.085 0.068 0.126 一 0.055 一 0.040 一 0.032 
Pr[ 码头 ] 变 化 0. 119 一 0.263 0.080 0.064 一 0.055 0.122 一 0.037 一 0. 030 


Pr| 私家 船 | 变化 0.080 0.080 一 0. 391 0.225 一 0.040 一 0.037 0.182 一 0. 105 
Pr[ 租 船 ] 变 化 0.068 0.064 0.225 一 0.357 一 0.032 一 0.030 一 0.105 0.166 


*” 当 回 归 元 对 其 中 一 个 选项 发 生变 化 而 对 其 他 选项 不 变 时 ,选取 每 个 选项 的 概率 的 平均 边际 罗 应 。 


这 些 边 际 效 应 与 概率 的 计算 需要 估计 之 后 来 进行 计算 。 对 于 CL 模型 来 说 ， 
快速 计算 .11(back-of-the-envelop calculation) 使 用 了 户 (6 一 ps )8, 其 中 ; 力 ; 表示 
样本 平均 概率 。 对 于 岸 边 钓鱼 价格 变化 100 美元 对 岸 边 钓鱼 概率 的 效应 来 说 ， 
100 久 0. 113 关 (1 一 0. 113) 义 (一 0.21) 王 一 0. 21 ,与 表 中 样本 平均 值 一 0. 272 相 比 ， 
当 概 率 比较 接近 于 0 或 1 时 ,这 种 近似 变 得 缺少 合理 性 。 

表 15. 3 中 的 结果 与 下 述 观点 一 致 :最 大 的 替代 关系 是 在 码头 钓鱼 与 岸 边 钓 
鱼 、 私 家 船 钓鱼 与 租 船 之 间 。 具 体 地 讲 , 对 于 码头 钓鱼 来 说 ,价格 上 升 或 捕获 率 下 
降 都 会 导致 用 去 岸 边 钓 鱼 作 为 替代 ,反之 亦 然 。 对 租 船 钓鱼 与 私家 船 钓 鱼 来 说 ,类 
似 结 果 仍 成 立 。 

倘 知 平均 价格 为 86 美元 且 平 均 捕 获 率 为 0. 30, 这 些 概率 变动 在 回归 元 上 显得 
非常 大 。 不 过 ,人 们 可 以 计算 弹性 。 使 用 选择 概率 需要 小 心 慎重 ,因为 概率 位 于 0 
与 1 之 间 是 有 界 的 。 当 预测 概率 从 0. 01 到 0. 02 变动 时 所 产生 的 弹性 大 致 是 预测 
概率 从 0. 50 到 0. 51 变动 时 所 产生 弹性 的 50 倍 。 


15.2.2 多 项 式 logit: 选项 不 变 问 归 元 


现在 ,考察 以 干 美元 测算 的 每 月 收入 的 作用 。 由 表 15. 1 知 , 可 以 看 出 , 当 收 入 
提高 时 ,钓鱼 方式 会 依次 从 码头 钓鱼 到 租 船 钓鱼 再 到 岸 边 , 而 最 终 到 私家 船 钓 鱼 ， 
这 里 在 码头 钓鱼 的 人 员 平 均 月 收入 为 3387 美元 ,而 私家 船 钓鱼 的 人 员 平 均 月 收入 
为 4654 美元 。 

因为 收入 对 选项 来 说 是 不 变 的 ,所 以 合适 的 模型 是 多 项 式 logit 模型 (将 在 
15. 4. 1 市 阐述 ) 。 这 将 设置 回归 元 系数 随 选项 而 变化 ,满足 : 


CL12 是 指 测试 一 个 假设 的 粗略 计算 , 它 不 一 定 写 在 信封 的 背面 。 通 常 ,该 术语 比 猜 想 要 可 信 一 些 , 但 
是 不 如 一 个 数学 定理 那样 确定 。 它 经 常用 于 数学 .物理 和 某 些 工程 领域 。 这 里 将 它 译 成 快速 计算 。 一 一 译 
者 注 
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ps —Pr y= He ee er 7 

其 中 ,I 表示 收入 。 由 于 约束 的 概率 之 和 为 1, 需 要 对 参数 加 以 正规 化 。 经 验 结果 ， 
令 mi 一 0 BB 一 0。 

参数 估计 值 ,已 由 表 15. 2 中 的 MNL 列 给 出 。 与 CL logit 模型 相 比 ,对 其 系 
数 给 出 解释 就 更 加 困难 。 特 别 地 ,对 于 MNL 模型 来 说 , 正 的 回归 系数 并 不 意味 
着 ,回归 元 增 大 会 叶 致 那个 选项 概率 的 增加 。 相 反 , 对 MNL 模型 的 解释 与 参照 或 
基准 类 别 组 有 关 , 此 处 作为 岸 边 系数 的 岸 边 被 正规 化 为 0。 与 岸 边 钓鱼 相 比 , 较 高 
收入 会 寻 致 源 自 码头 (由 于 Bis 二 一 0. 143 二 0) 或 租 船 (由 于 Bis 一 0. 092) 的 钓鱼 似 
然 , 并 使 私家 船 钓鱼 的 似 然 较 大 。 

对 收入 变动 响应 的 数量 ,可 用 N !2;-19p; /91 进行 测算 , 即 对 个 体 的 边际 效 
应 进行 平均 。 就 MNL 模型 而 言 ,这 通过 N -YY Pi ( 房 一 房 ) 估 计 [ 参 见 式 
(15. 19)] ,其 中 , 成 表示 Bi; 的 估计 值 ,Bi 一 Xi puB, 表 示 Bi 的 加 权 概率 平均 ,而 
Pi 表示 预测 概率 ,j 二 1,…,m。 对 于 四 种 选择 来 说 ,与 每 月 收入 增加 1 000 美元 分 
别 联系 的 变化 为 0. 000， 一 0. 021，0. 033 以 及 一 0.012, 即 岸 边 .码头 、 私 家 船 以 及 
租 船 钓鱼 的 概率 。 这 表明 , 岸 边 钓 鱼 变动 很 小 ,从 码头 钓鱼 及 租 船 钓鱼 离开 ,并 向 
私家 船 钓 色 方 式 运动 。 由 于 平均 月 收入 是 4 100 美元 ,所 以 概率 上 的 变动 在 合理 范 
围 之 内 。 

不 过 ,只 有 收入 对 选择 钨 色 方 式 来 说 不 是 一 个 大 的 辨别 因素 。 由 表 15. 2 底部 
可 以 发 现 , 和 CL 模型 相 比 ,MNL 模型 具有 更 小 的 对 数 似 然 以 及 伪 Ri。 从 输出 不 
是 已 知 的 来 看 ,对 于 样本 中 所 有 不 同 个 体 来 说 , 源 自 MNL 模型 的 关于 岸 边 预测 概 
率 从 0.095 到 0. 115, 头 于 码头 的 预测 概率 从 0. 036 到 0. 234, 关 于 私家 船 的 预测 
概率 从 0. 240 到 0. 626 , 而 关于 租 船 的 预测 概率 从 0. 244 到 0. 416。 由 于 MNL 模 
型 包含 截 距 ,这 些 每 个 选项 的 预测 概率 等 于 样本 平均 概率 。MNL 模型 的 这 一 结果 
正 是 稍 后 式 (15. 16) 给 出 的 结果 。 


15. 2.3 海 合 jogift 
为 使 模型 更 为 丰富 ,就 要 将 前 面 两 个 模型 结合 起 来 。 这 样 做 ,利用 满足 


per y — ;1 exp(BrPy RC 十 mi 十 Bi 
7 2 1€xp(BpP 十 EC 十 ak 十 Bi) 

的 所 谓 混合 logit 模型 (参见 15. 4. 1 节 )。 不 要 把 该 模型 与 15. 7 节 中 称 为 混合 模 
型 的 那 种 模型 混 消 ,该 模型 以 条 件 logit 模型 实施 ;. 

pP;; 十 ij 十 21_ (gd ii 4Bnadl;)) 
> exp(BeP 二 BeC i 十 2 1 (qd 21 二 Bnal;, )) 
其 中 ,dj 表示 虚拟 变量 , 当 7 一 时 ,di 一] 否则 为 0; 而 当 7 天 让 1 时 ,di 一 do 
等 于 收入 ,否则 为 0。 在 此 情况 下 ,我们 将 y; 对 8 个 回归 元 进行 回归 : P 、Ci 、diz、 





Pr[ y， 一 中 一 


[C1] 原著 中 这 里 为 等 号 ,怀疑 有 误 , 应 为 不 等 号 。 一 一 译 者 注 
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diy3 ~dii4 CT dd 1; 以 及 d la o 由 于 a 二 0 日 Br 一 0, 所 以 回归 元 Qi 与 dad li;i 均 可 
以 省 上 略 。 注 意 到 ,如 采 我 们 估计 仅仅 以 di 与 d1;, 作 为 回归 元 的 这 种 CL 模型 , 那 
么 CL 估计 值 等 于 前 面 给 出 的 MNL 估计 值 。MNL 模型 总 能 够 作为 CL 模型 得 以 
估计 (参见 15. 3. 4 节 )。 

尽管 混合 logit 模型 比 CL 模型 更 为 丰富 ,但 CL 模型 具有 下 述 优点 :车 额外 的 
选项 被 添加 到 选择 集合 中 , 则 人 们 能 预测 选择 它 的 概率 ,因为 CL 模型 的 参数 并 不 
随 选项 而 变化 。 

表 15. 2 最 后 一 列 已 报告 一 些 结果 。 与 前 面 两 个 模型 相 比 ,其 系数 变动 很 小 ， 
只 是 捕获 率 系 数 变 动 极 大 。 这 种 变化 归 因 于 包含 了 特定 选项 的 虚拟 变量 , 而 不 是 
因为 包含 收入 。 与 其 他 模型 相 比 , 混合 模型 因 具 有 更 大 的 对 数 似 然 值 或 正式 统计 
检验 , 备 受 人 们 青睐 。 


15.3 一 般 性 结 来 


本 下 结 朱 和 所 有 多 项 陈 模型 有 关 。 本 章 剩 余 内 容 专门 研究 实际 应 用 中 运用 的 
对 多 项 式 模型 的 各 种 不 同 设 定 。 


15.3.1 多 项 式 模 型 


存在 m 个 模型 选项 ,同时 因 变 量 y 被 定义 成 取 j7 值 ,如 果 第 ;个 选项 被 采用 ， 
jj 二 1,*** ,mo (不 过 ,有 些 作 者 考察 mt 1 个 选项 ,j 二 0,1,…,m。,) 将 采用 第 7 个 选 
项 的 概率 定义 成 : - 
pj;=PrLy=7|， j=1,*…,m (15. 1) 
对 每 个 观测 值 y 引入 m 个 二 值 变 量 ， 
1， 当 y 一 7 
一 15. 
Yy; 0， 当 天 (15.2) 
因而 ,y， 等 于 1 , 行 选 项 ; 是 观测 结果 , 而 剩 下 Vk 等 于 0, 则 对 于 » 的 每 个 观测 值 来 
说 ,yy 和 …yn 之 一 将 确实 是 非 零 的 。 从 而 ,观测 值 的 多 项 式 密度 (multinomial 
density) 可 方便 写成 : 


f(y =pr x xp = [py (15. 3) 


对 于 回归 模型 来 说 ,对 第 i 个 个 体 及 回归 元 引入 下 标 1。 针 对 第 i 个 个 体 选择 
第 7 个 选项 的 概率 , 建 模 成 : 
pi 一 PrLy 一 门 王 FOX G)， 7 一 1 和 7， 一 1 (15. 4) 
关于 Fj 的 消 数 形式 应 该 使 得 概率 位 于 0 与 1 之 间 , 并 对 ; 求 和 为 ]。 对 FF 设 定 各 
种 不 同盟 数 就 对 应 于 一 些 特 定 模 型 ,诸如 著名 多 项 式 logit、 髓 套 logit、 多 项 式 
probit、 有 序 多 项 式 、 贯 序 多 项 式 模 型 以 及 多 变量 模型 。 这 些 模 型 在 下 面 几 节 可 以 
阐述 。 
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15.3.2 ML 估计 . 


一 个 观测 值 的 多 项 式 密度 已 由 式 (15. 3) 给 出 。 于 是 , N 个 独立 观测 值 样本 的 
似 然 旺 数 是 Ln 一 I 开 六 ,2 ,其 中 ,下 标 i 表示 NN 个 个 体 中 的 第 ;个 ,而 下 标 7 
表示 m 个 选项 中 的 第 7 个 。 其 对 数 似 然 函数 (log-likelihood function) 是 ， 


N m 
LL= lnLn = > > yy ln ps (15. 5) 
一 ]】 一) 


其 中 » Pi —F, (x ,B) 表示 参数 B 与 回归 元 的 图 数 , 已 由 式 (15. 4) 定 义 。 更 一 般 地 ， 
选项 数量 会 随 个 体 不 同 而 变化 ,因此 ,m 选择 变 成 m, 选择 。 
MLE 6 的 一 阶 条 件 作为 


9L _ SIV Yi ops 
98 2 i=1 pi; 98 
的 解 , 它 通常 关于 B 是 非 线 性 的 。y; 分 布 一 定 是 多 项 式 的 ,所 以 对 数据 生成 过 程 
正确 设 定 意味 着 ,对 关于 概率 加 函数 形式 F;(x;,B) 的 正确 设 定 。 这 就 确保 了 一 致 
性 ,从 而 ELy; 二 pi ,对 式 (15. 6) 取 数学 期 望 ,得 到 E[3L/96B8j] 二 2X1 2%_19p;/9B， 
由 于 > 有 oz 二 1, 因而 等 于 0。 
人 们 可 应 用 通常 渐 近 理论 , 从 而 其 方差 矩阵 为 负 的 信息 和 矩阵 的 逆 。 对 式 
(15. 6) 双 和 式 求 关 于 B 的 微分 ,并 利用 EL 一 如 ,得 到 简化 形式 ， 
ro 1 9py 9ps_ Fpy | Yi 
PB ~N|p,, (2 98 908’ 9B38 | ) | 《15. 7) 
倘 符 观测 值 对 于 不 同 i 是 独立 的 , 则 不 要 求 用 更 一 般 方差 矩阵 的 三 明治 形式 ,因为 
数据 一 定 是 多 项 式 分 布 的 ,而 信息 矩阵 等 式 将 成 立 。 
正如 已 提 太 的 ,各 种 不 同 模型 对 应 于 F; (x;,B) 的 不 同 选择 p; ,从 而 有 不 同 的 
表达 式 (15. 6) 与 式 (15.7)。 关 于 基于 选择 样本 诸如 那些 对 已 观测 到 结果 常常 过 度 
抽样 的 样本 的 极 大 似 然 估计 ,在 14. 5 节 与 24. 4 节 加 以 阐述 。 


15. 3.3 基于 算 的 仿 计 


对 于 简单 模 截 面 应 用 来 说 ,标准 估计 方法 是 MLE。 不 过 , 当 出 现 复 杂 情 况 , 诸 
如 内 生性 或 对 不 同 观测 单位 : 具有 相关 性 时 ,一 种 更 为 简便 的 方法 是 ,使 用 基于 和 所 
的 估计 量 。 一 旦 假定 概率 得 以 正确 设 定 ,我 们 考察 满足 估计 方程 ; 


~ m 
2 之 (3 —p)z=0 (15. 8) 


的 任何 估计 量 , 其 中 ,z; 表示 与 8 的 维 数 相同 的 向 量 ,z; 不 依赖 于 y; ,例如 ,z= 二 
9pi;/9B。 如 果 pi 的 函数 形式 得 到 正确 设 定 ,那么 这 个 估计 量 将 是 一 致 的 ,从 而 
ELy 二 pi ,而 且 式 (15. 8) 左 边 双 和 式 具 有 0 期 望 值 。 该 估计 量 的 有 效 性 将 会 随 
z; 选择 而 变化 ,而 在 更 一 般 的 情况 下 ,可 使 用 GMM 估计 方法 。 估 计 方 程 (15. 8) 是 
多 项 式 probit 模型 的 模拟 矩 方 法 估计 量 的 基础 (参见 15. 8. 2 节 )。 





一 (0 (15. 6) 
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15. 3.4 选项 变化 的 回归 元 


多 项 式 回 归 模 型 不 仅 在 式 (15. 4) 关 于 始 数 FF (*) 的 选择 方面 不 同 ,而 且 在 回 
归 元 与 参数 关于 选项 方面 如 何 变化 上 也 不 同 。 

在 一 种 极端 下 ,所 有 回归 元 都 可 能 是 选项 变化 的 (alternative-varying) , 这 意 昧 
着 对 于 各 种 不 同 选 项 回归 元 取 不 同 的 值 ,并 设 x 二 [Xi Xis… Xm ,于 是 , 式 (15. 4) 
通常 具有 

F(x;, BB)=F, xB, ,Xm lB) 
形式 ,其 中 ,参数 8 对 不 同 选项 来 说 为 常 值 。 一 个 例子 是 后 面 式 (15. 10) 所 定义 的 
条 件 logit 模型 。 

在 另 一 种 极 端 下 ,所 有 回归 元 都 可 能 是 选项 不 变 的 (alternative-invariant) 。 这 
意味 着 ,x; 并 不 随 选 项 不 同 而 变化 。 一 个 例子 是 ,在 交通 方式 选择 模型 中 的 个 体 社 
会 经 济 特征 。 那 么 , 式 (15.4) 通 常 具有 

F(xi,B)=F;(xn Bi ,XBn) 
形式 ,其 中 ,参数 68; 对 不 同 选项 会 不 同 ,而 8 二 [B1 Bs… B。]」]。 参 数 识 别 要 求 正 规 
化 ,例如 B1 二 0。 一 个 例子 是 后 面 式 (15. 11) 所 定义 的 多 项 式 logit 模型 。 

在 选项 变化 回归 元 与 选项 不 变 回 归 元 之 间 的 区 别 具 有 重要 的 实践 意义 ,因为 
关于 多 项 式 模型 的 标准 记号 与 计算 机 程序 专门 地 对 一 种 或 男 一 种 起 作用 。 当 然 ， 
在 实际 应 用 中 , 某 些 回归 元 可 能 是 选项 变化 的 ,而 男 一 些 回 归 元 则 是 选项 不 变 的 。 
在 这 些 情况 下 ,最 好 是 使 用 为 选项 变化 的 回归 元 编写 的 程序 ,因为 实施 从 选项 不 变 
回归 元 到 选项 变化 回归 元 的 格式 化 是 可 行 的 。 设 x%; 表示 KX1 维和 呵 量 。 于 是 ,把 
xi 定义 成 Kmx!l 维 问 量 , 只 有 第 ; 块 为 X; ,其 余 元 素 全 部 为 0, 也 就 是 说 : 


xi 一 10 … 9/ x 0 和 .….0” | 


并 定义 8 一 [0”B2… DG] ,其 中 ,Bl 一 0 表示 正规 化 。 于 是 ,xiB; 一 XB。 本 质 上 ， 
回归 元 包括 与 特定 选项 虚拟 变量 的 交互 作用 项 。 一 个 例子 已 由 15. 2. 3 节 给 出 。 
实施 从 特定 选项 回归 元 到 选项 不 变 回 归 元 的 格式 化 同样 是 可 行 的 ,不 过 需要 对 每 
个 特定 选项 回归 元 施加 (一 1) 个 参数 等 式 约束 。 


15. 3. 5 显 糙 偏好 数据 与 意向 偏好 数据 


微观 经 济 计 量 人 研究 所 用 的 多 项 式 数 据 经 常 源 自 个 体 消费 者 选择 。 消 费 者 选择 
数据 ,可 能 是 显 性 偏好 数据 ‘17](revealed preference data) ,有 即 实际 决策 及 结果 方面 
的 数据 ;也 可 能 是 意 问 偏好 数据 和 :1(stated preference data) , 即 关 于 假设 方程 啊 应 


(1] 又 称 为 显示 性 偏好 数据 。 显 性 仙 好 理论 是 由 美国 著名 经 济 学 家 保罗 。 了 杭 缪 尔 征 (PSamuelson) 
提出 来 的 ,其 基本 思想 是 ,消费 者 在 一 定价 格 条 件 下 的 购 闫 行为 暴露 或 显示 他 内 在 的 偏好 倾 上 加。 因此 ,我 们 
可 根据 消费 者 的 购买 行为 来 推测 消费 者 的 仿 好 。 这 是 一 种 不 基于 “ 仿 好 关系 (效用 中 数 ) 一 消费 者 选择 ”的 好 
辑 思路 ,而 是 一 个 相反 的 过 程 , 即 “消费 者 选择 一 偏好 关系 "。 一 一 译 者 注 

《23] 又 称 为 叙述 性 偶 好 数据 或 意向 调查 数据 。 意 向 偶 好 数据 是 指 , 其 调查 内 容 是 尚未 发 生 的 事情 。 
意向 偏好 数据 具有 如 下 几 个 特点 :可 操作 性 强 、 数 据 误差 可 调节 、 意 向 偏好 数据 调查 中 选择 方案 集合 明确 
等 。 一 一 译 者 注 
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的 调查 数据 。 显 性 偏好 数据 的 一 个 例子 是 实际 职业 的 选择 。 意 向 偏好 数据 的 例子 
是 关于 高 效 燃料 交通 工具 的 市 场 营销 研究 , 即 要 求 调查 对 象 在 诸如 燃料 消费 . 范 用 
以 及 价格 特性 上 不 同 的 各 种 假设 交通 工具 之 间 进 行 选择 。 

显 性 偏好 数据 经 常 很 少 提供 或 没有 提供 除 选择 以 外 的 一 些 选项 。 例如, 我们 
也 许 要 知道 选取 产品 的 个 体 消 费 者 的 价格 ,而 不 是 可 选择 产品 的 价格 。 用 多 项 式 
建 模 的 意向 偏好 数据 的 引 人 注 目 之 处 是 ,对 于 所 有 可 能 可 选择 产品 的 重要 变量 诸 
如 价格 来 说 ,都 具有 可 利用 数据 。 尤 其 是 ,这 有 助 于 人 们 希望 预测 选择 的 概率 或 根 
据 新 选项 的 特性 预测 该 产品 的 市 场 份额 ,如 果 所 有 回归 元 都 随 选项 而 变化 ,那么 所 
有 参数 关于 选项 是 不 变 的 。 

利用 意向 偏好 数据 时 ,存在 某 种 争论 ,因为 响应 会 随 问题 措辞 而 变化 。 另 外 ， 
人 们 可 能 过 分 强调 ,或 者 少 说 他 们 关注 支持 特殊 政策 的 意愿 。 例 如 ,一 些 人 愿意 过 
分 强调 他 们 支持 环境 友好 政策 的 意愿 。 

购物 扫描 数据 (scanner data) 特 别 引 人 注目 ,因为 它们 给 出 展示 性 选择 数据 ， 
同时 提供 各 种 所 有 可 供 选 择 产 品 的 价格 数据 。 


15. 3.6 模型 评价 与 选择 


对 多 项 式 模型 中 的 回归 参数 直接 解释 很 困难 。 不 过 ,一 种 有 益 方式 是 ,考察 回 
归 元 变化 对 结果 概率 的 边际 效应 (或 弹性 )。 条 件 logit 模型 与 多 项 式 logit 模型 的 
公式 已 在 15. 4. 3 节 给 出 ,并 在 15.2 节 得 到 了 应 用 。 

几 种 评价 模型 方法 已 经 由 雨 官 (Amemiya，1981) 与 马达 拉 (Maddala，1983) 
疼 述 。 利 用 建立 在 残 差 平方 类 似 形式 上 的 R? 测量 并 没有 起 到 很 好 的 作用 。 将 预 
测 概率 与 实际 结果 进行 比较 ,得 出 具有 受 限 制 值 的 特点 ,因为 所 估计 的 含有 截 距 
MNL 模型 对 估计 利用 了 下 述 限 制 :预测 概率 的 平均 等 于 每 个 选项 样本 平均 概率 。 
考察 每 个 选项 的 样本 内 拟 合 概率 的 值 域 是 有 用 的 。 该 值 域 范围 越 窜 , 则 越 容易 辩 
识 模 型 。 对 于 更 详细 内 容 , 参 见 14. 3. 7 节 的 二 值 结果 。 

多 项 式 模型 通常 利用 极 大 似 然 法 进行 估计 。 因 而 ,对 于 由 套 模型 情况 来 说 , 运 
用 标准 的 似 然 比 检验 。 当 模型 是 非 藤 套 的 时 候 , 运 用 建立 在 拟 合 对 数 似 然 上 的 对 
模型 中 参数 个 数 含 有 目 由 度 调整 的 赤 池 信息 准则 的 变形 (参见 8. 5. 1 节 )。 

归功 于 麦 殉 法 登 (McFadden，1973) 的 有 用 伪 R* 测量 是 ， 

R=1—ln La/ln Lo (15. 9) 

其 中 ,in Ln 表示 拟 合 模型 ,而 L。 表示 仅 有 截 距 的 模型 ,即将 每 个 可 供 选 择 的 概率 
估计 成 为 样本 平均 。 对 于 任何 多 项 式 模 型 来 说 ,对 数 似 然 的 理论 极 大 值 为 0。 对 
于 i 与 , 若 当 y; 二 1,pi; 二 1 就 是 此 种 情况 ,否则 p; 二 0。 因 而 ,将 R? 测量 重新 
写成 : 


_ lnLam—lnL, 
ln Lax ln L, 


这 能 解释 成 为 通过 拟 合 模型 所 达到 的 对 数 似 然 中 最 大 的 潜在 增益 部 分 (参见 
8.7.1 市 )。 


R’* 
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15.4 多 项 式 logit 


最 简单 的 多 项 式 模型 是 多 项 式 logit 模型 , 它 由 卢 斯 (Luce，1985) 提 出 。 广 泛 
运用 的 此 种 模型 的 变形 ,依据 回归 元 是 否 随 选项 不 同 而 变化 出 现 各 种 形式 ,本 节 所 
阐述 的 许多 问题 ,与 下 面 几 节 将 更 简要 讨论 的 其 他 模型 相 联 系 。 


15.4.1 条 件 、 多 项 式 以 及 疡 人 台 logit 模型 


对 于 选项 变化 的 回归 元 (参见 15. 3. 4 节 ) 来 说 ,运用 条 件 logit 模型 (condition- 
al logit model) 。CL 模型 设 定 : 
exiG 


Pi Sm XB ; 二],*** ,mm (15. 10) 
[一 | 


由 于 exp(CxizxG ) 盖 0, 故 这 些 概 率 位 于 0 与 1 之 间 ,而 且 对 7 求 和 为 1。 实际 上 ,人 们 
一 旦 看 到 公式 (15. 10), 它 看 来 像 确保 概率 特性 良好 的 一 个 最 简单 设 定 。 因 为 
D1 ps 二 1 ,所 以 可 借助 于 把 全 定义 成 回归 元 与 第 1 个 选项 值 的 离 差 ， 比如 说 , 令 
xil 一 0 来 获得 等 价 模型 。 
不 过 , 当 回 归 元 不 随 选 项 而 变化 时 ,运用 多 项 式 logit 模型 (multinomial logit 
model) 。MNL 模型 设 定 : 
ex 


由 于 之 产 : 轨 一 1， 故 为 了 确保 模型 识别 ,需要 一 种 约束 ,而 且 通 常 的 约束 是 DB 一 0。 


上述 两 个 模型 能 组 合成 一 些 作 者 称 为 的 混合 logit 模型 (mixed logit model)， 
它 满足 : 


7 一 ]，…，77 《15. 11) 


eXiB+ wy, 
Py Sm eat wy 7 了 一] ,1 (15. 12) 


其 中 ,x 随 选 项 而 变化 ,而 w; 并 不 随 选 项 而 变化 。 如 同 15. . 2. 3 节 与 15. 3. 4 节 所 
讨论 的 ,混合 模型 与 MNL 模型 均 能 重新 表述 成 CL 模型 。 注 意 , 有 时候 混 合 logit 
模型 术语 还 用 作 15. 7 市 详 述 的 相当 不 同 的 模型 。 

所 有 这 些 模型 都 能 给 出 一 般 称谓 多 项 式 logit, 但 我 们 遵循 标准 惯例 ,对 MNL 
模型 与 CL 模型 加 以 区 别 。 

对 多 项 式 logit 模型 的 一 种 明显 推广 是 : 


一 一 Vs | 一 一 如 二 二 nn : 
pi Fe Vy ， 7 一 | ，…， (15. 13) 
其 中 ,V; 之 0 可 以 是 回归 元 x 与 参数 8 的 相当 一 般 涌 数 。 这 是 所 谓 的 普 适 logit 模 
型 C1](universal logit model) 。 尺 管 这 能 生成 潜在 丰富 的 模型 类 型 ,但 在 经 济 计量 
党 中 却 极 少 使 用 ,因为 它 并 不 会 由 选择 理论 目 然 产 生 。 


[1] 又 称 为 万 能 logit 模型 。 一 一 译 者 注 
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135.4.2 CL 与 MNL 模型 的 ML 侍 计 


我 们 阐述 条 件 logit 模型 与 多 项 式 logit 模型 的 重要 公式 。 完 整 推 导 将 在 
15. 12 节 给 出 。 

对 于 CL 模型 来 说 ,其 中 ;pi 已 由 式 (15. 10) 定 义 ,9p; /9B8= pi (Xi —X¥;) ,其 
中 ,; 二 221puxi 表 示 回 归 元 的 概率 加 权 平 均 ( 参 见 15. 12. 1 节 )CL 一 阶 条 件 , 即 
由 式 (15. 6) 给 出 一 般 pi; ,可 立刻 简化 成 、: 


p39 jx, 一 xx) 一 0 (15. 14) 


对 B 求 导数 ,利用 ELy |= p; ,并 经 过 某 种 进一步 代数 运算 ,得 到 | : 
N 于 
BAL~N|B, (2 2 Pi Xi — Ki) Cs —¥) ) | (15. 15) 


对 于 MNL 模型 来 说 , p; 已 由 式 (15. 11) 定 义 ,而 且 15. 12. 2 节 将 证 明 ， 
9 pi /9 = p; (60;;4 一 pi )Xi, 其 中 ,6 表示 指示 变量 , 当 7 二 k 时 ,6 等 于 ], 而 当 
J 天 &R 时 ,6 等 于 0, 并 且 得 到 的 MNL 一 阶 条 件 在 经 过 某 些 代数 运算 之 后 ,简化 成 : 


洁 = Do — px; = 0, k= 1,.…,m (15. 16) 
正常 情况 下 , How 一 和 MLB，(EL3?L/9B3B'])-1 ,经 过 进一步 代数 运算 可 以 证 明 ， 
信息 和 矩阵 的 第 jk 个 块 为 : 


/ E[35 $7 |- Dp (Gi — pa XX j= l,m k= 1,.,m 
(15. 17) 


15. 4.3 右 已 参数 解 柯 


在 任何 韭 线 性 模型 中 ,对 参数 进行 解释 都 需要 小 心 慎 重 。 对 多 项 式 模型 而 言 ， 
尤其 如 此 ,例如 ,在 系数 符号 与 系数 概率 之 间 不 一 定 存在 一 一 对 应 。 这 里 ,我 们 痢 
述 在 15. 2 忆 的 应 用 中 使 用 的 结果 ， 

边际 效应 与 弹性 

我 们 关注 给 定 个 体 时 回归 元 变化 对 选择 概率 的 边际 效应 (marginal effects) 。 
于 是 ,弹性 (elasticities) 能 通过 利用 当前 回归 元 乘 以 边际 效应 ,并 用 概率 去 除 而 计 
算出 。 典 型 地 讲 , 为 了 给 出 平均 边际 效应 或 平均 弹性 ,这 是 关于 个 体 的 平均 ， 

对 于 CL 模型 来 说 ,考察 关于 第 个 选项 的 回归 元 变动 1 个 单位 时 对 第 7 个 概 
率 的 效应 。 例 如 ,如 果 乘 公共 汽车 旅行 的 时 间 增 加 1 分 钟 ,而 通过 其 他 方式 旅行 的 
时 间 不 改变 ,那么 选择 各 种 运输 方式 的 将 应 是 什么 呢 ? 由 15. 12. 1 节 知 : 


gp 
I =—p; (05 — pa) (15. 18) 


其 中 ,6 已 在 式 (15. 15) 后 面 定 义 。 由 此 可 得 ,如 打 回 归 元 系数 是 正 的 ,那么 关于 
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第 & 个 选项 的 相对 应 值 的 回归 元 的 成 分 增 大 ,会 增加 第 & 个 选项 的 概率 ,同时 减少 

其 他 选项 的 概率 。 

然而 ,对 于 MNL 模型 来 说 ,考察 对 所 有 选项 都 取 相 同 值 的 回归 元 变动 一 个 单 
位 时 第 j 个 概率 的 效应 。 例 如 ,年 龄 增 大 1 年 对 选取 工作 的 概率 效应 是 什么 ? 由 

15. 12. 2 节 知 ， 


ps = py (8,— —pB.) (15. 19) 


其 中 ,B= 忆 ,piB, 表 示 B, 的 概率 加 权 平 均值 。 由 此 可 得 ,响应 符号 不 一 定 是 由 6B， 
的 符号 给 出 ,除非 B;>>6 ,对 于 所 有 & 尖 同时 不 一 定 要 检验 特定 系数 是 否 为 0。 
如 同 其 他 非 线 性 模型 一 样 ,我 们 可 计算 平均 啊 应 NN 2;9p; /9xC—=N Dpi; (8B; 
6B.) ,或 者 使 用 非 微分 方法 ,并 比较 当 回归 元 变动 时 平均 预测 概率 的 变化 。 

基准 类 的 比较 

CL 模型 与 MNL 模型 中 的 系数 同样 能 依据 (14. 3. 4 节 详 细 阑 述 的 ) 相对 风险 
给 出 更 直接 的 如 同 logit 的 解释 。 这 是 因为 该 模型 可 重新 表述 成 二 值 logit 模型 。 

对 于 MNL 模型 来 说 , 比较 是 针对 基准 类 ,这 是 选项 正规 化 拥有 等 于 0 的 系 
数 。 为 了 认识 这 一 类 ,注意 到 , 如果 选项 j 或 选项 可 观测 ， 多 项 式 logit 概率 
(15. 11) 蕴 含 ,可 观测 选项 ; 的 条 件 概 率 是 : 


Pr[ y=j|y=} 或 个 一方 年 六 
px 
8 
(8—B) 
~ 14ev 3—A) 
这 是 具有 系数 ([B; 一 Bi) 的 logit 模型 。 经 过 某 种 简化 可 得 第 二 个 等 式 。 假 定 对 选 
项 1 进行 正规 化 ,所 以 B81 二 0。 于 是 有 : 


(15. 20) 


ex 
1 十 ex 
以 同样 方式 对 B; 解释 成 在 选项 7 与 1 之 间 二 值 选 择 的 logit 模型 系数 。 类 似 于 二 
值 logit 模型 ,选择 选项 ; 而 不 是 选项 1 的 相对 风险 是 : 
Pr 和 二 站 va 
Pr y=1] < 
因而 e 入 给 出 , 当 zz 变化 一 个 单位 时 ,这 种 相对 风险 中 的 比例 变化 。 这 种 解释 将 会 
依据 嘟 一 个 选项 被 正规 化 成 拥有 零 系 数 而 变化 ,并 且 人 们 需要 拥有 一 种 自然 的 基 
准 类 (base category) ,这 种 解释 确实 是 有 用 的 。 例 如 ,倘若 关注 内 容 在 于 各 种 可 选 
择 的 旅行 汽车 往返 方式 ,就 对 汽车 选项 的 系数 正规 化 成 0。 
同 理 ,类 似 方 式 用 于 满足 : 
Oi —%.) 8 


Pr| y; 二 7|y; 二 7 或 k= 二 Te (15. 21) 


的 CL 模型 , 而 现在 正规 化 是 针对 基准 类 回归 元 值 进行 的 。 





Pr| 光一 jy 一 7 或 1 一 
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15. 4. 4 无 关 选 项 的 独立 性 


CL 模型 与 MNL 模型 的 局 限 性 是 ,在 m 个 选项 之 间 进 行 辨 别 就 被 简化 成 一 系 
列 两 两 比较 ,这 种 两 两 比较 除了 所 考虑 的 两 两 对 比 之 外 没有 受到 选项 特征 的 影响 。 
由 式 (15. 20) 与 式 (15. 21) 知 ,这 是 很 明显 的 ,可 以 证 明 ,MNL 模型 简化 成 任何 选择 
对 之 间 的 二 人 选择 logit 模型 。 该 条 件 概 率 并 不 依赖 于 其 他 选项 。 

举 一 个 极端 例子 ,给 定 乘 小 车 或 红色 公共 汽车 往返 两 地 ,MNL 模型 或 CL 模 
型 中 往返 两 地 的 条 件 概 率 被 假定 成 与 是 否 磁 蓝 色 公共 汽车 往返 的 选项 是 独立 的 。 
不 过 ,实际 上 我 们 希望 引进 蓝 色 公共 汽车 , 除 颜色 之 外 , 蓝 色 公共 汽车 在 每 个 方面 
都 与 红色 公共 汽车 一 样 , 很 少 对 小 车 使 用 产生 影响 ,同时 将 红色 公共 汽车 的 使 用 减 
半 ,导致 了 给 定 乘 小 车 或 红色 公共 汽车 往返 时 对 小 车 使 用 的 条 件 概 率 增 大 。 

MNL 的 这 一 弱点 ,在 文献 上 统称 为 红色 公共 汽车 一 蓝 色 公共 汽车 问题 ,或 更 
正式 地 , 称 为 无 关 选 项 的 独立 性 ‘17(independence of irrelevant alternatives)。 利 用 
罕 斯 曼 检 验 可 对 它 进行 检验 [参见 豪 斯 曼 和 麦克 法 登 (Hausman and McFadden,， 
1984) ]。 例 如 ,我 们 能 计算 出 小 车 ,红色 公共 汽车 以 及 蓝 色 公 共 汽 车 的 三 种 选择 模 
型 中 红色 公共 汽车 的 系数 估计 值 , 这 里 再 次 以 小 车 为 基准 类 ,与 系数 估计 值 加 以 比 
较 。 大 多 数 经 济 计量 学 文献 都 关注 于 没有 这 种 弱点 的 可 选择 无 序 模型 。 这 些 模型 
将 在 15. 6 节 至 15. 8 节 阐 述 。 


15.5 可 加 随机 效用 模型 


比 多 项 式 logit 与 条 件 logit 模型 更 为 一 般 的 无 序 多 项 式 模型 ,通过 利用 可 加 
随机 效用 模型 的 一 般 框架 来 获得 ,本 节 闸 述 可 加 随机 效用 模型 。 下 面 几 节 阐 述 重 
要 例子 。 


1S.S.1 ARUM 


14. 4. 2 节 已 经 引入 二 值 结果 的 可 加 随机 效用 模型 (additive random utility 
model) 。 在 一 般 的 m 个 选择 多 项 式 模型 中 ,第 ; 个 选择 的 效用 被 设 定 成 : 
LU 一 Vi 十 se， j=1,2,.…,m (15. 22) 
其 中 ,V; 表示 效用 的 确定 性 成 分 ,而 s 表示 效用 的 随机 成 分 。 对 于 第 i 个 个 体 来 
说 ,通常 是 Vi; 一 xi;B 或 Vi 二 x;B ,通过 另外 的 结构 分 析 , 可 设 定 消费 者 需求 理论 使 
用 的 下 接 或 间接 效用 函数 。 为 了 记号 简单 起 见 , 下 面 不 用 个 体 下 标 i。 
被 选择 的 选项 是 具有 最 大 效用 的 ,所 以 : 
Pr[y 二 7 二 Pr[U; 之 U， 所 有 上 了 关 j (15. 23) 
二 PrLU 一 杞 魏 0， 所 有 R 尖 让 
一 Prles 一 e 妇 V， 一 Vs ” 所 有 R 天 1 
二 Pr[éy < 委 V ， 所 有 天 门 


【1 又 称 为 无 关 选 择 的 独立 性 。 一 一 幸 者 注 
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其 中 ,“~” 与 男 一 个 下 标 7 表示 针对 参照 选项 7 的 微分 。 

各 种 多 项 式 模型 可 通过 误差 项 联合 分 布 的 不 同 假 众生 成 。 这 些 模 型 在 统计 上 
是 有 效 的 ,因为 概率 之 和 为 1。 及 外 ,模型 与 决策 的 标准 经 济 理论 相 一 致 。 

例如 ,考察 三 种 选择 模型 中 的 PrLy 王 11 的 表达 式 。 利 用 式 (15. 23) 中 的 最 后 
一 个 等 式 , 并 定义 6&1 二 es 一 81,621 二 e2 一 &1， 则 有 : 


Pr| y 一 1 | 一 Pr| é»1 ~ Val ，&31 太一 Va (15. 24) 
Val 人 
一 | | f (E21 rE31 dE 21 dE al 


这 是 一 个 二 变量 积分 ,通常 没有 解析 解 。 更 一 般 地 ,m 种 选择 模型 会 涉及 (m 一 1) 
变量 积分 ,该 积分 可 能 产生 PrLy 二 站 的 闭 形式 解 , 也 可 能 没有 PrLy 王 四 的 财 形 
式 解 。 

通常 ,所 有 误差 对 于 不 同 选择 来 说 可 能 是 相关 的 。 不 过 ,需要 某 些 协 方差 约 
束 , 因 为 模型 是 可 识别 的 ,只 是 至 多 相差 (m 一 1) 个 误差 差分 对 | 参见 式 (15. 23) 的 
最 后 一 个 等 式 ] ,同时 由 于 U; 仅仅 至 多 相差 一 个 标 度 是 确定 的 ,所 以 需要 设 定 一 个 
方差 。 


15. 5.2 各 种 各 样 无 序 多 项 式 模型 


各 种 无 序 多 项 式 模型 起 因 于 对 el ,ez ，… ,es 联合 分 布 的 不 同 假 设 。 知 误差 假 
设 导致 选择 概率 的 闭 形式 解 , 分 析 就 相当 简单 。 不 过 ,在 许多 应 用 中 ,这 些 假设 被 
认为 约束 性 太 强 。 

即使 选择 概率 不 存在 团 形 式 解 ,第 12 草 已 归纳 的 密集 计算 法 使 得 该 估计 变 得 
容易 。15. 7. 2 节 与 15. 8. 2 节 将 和 阐述 这 些 方法 的 多 项 式 例子 。 


第 1 类 型 极 值 误差 
首先 假定 ,误差 6; 均 是 iid 的 且 为 第 1 类 型 极 值 误差 ,其 密度 为 : 
fle))—=e sexp(—e 5), j=1,2,…,m (15. 25) 


.该 密度 性 质 已 由 14. 4. 2 节 给 出 ,那里 已 经 证 明 , 在 二 值 结果 情况 下 ,这 就 产生 logit 
模型 。 

对 于 利用 含有 第 1 类 型 极 值 误差 的 ARUM 进行 建 模 的 多 项 式 结果 来 说 ,可 以 
证 明 , 式 (15. 23) 导 致 ， 


V. 


Pr[ y=/j] = To (15. 26) 


当 Vj; 一 WB 时 ,这 是 一 个 CL 模型 ,而 当 V 一 xXG 时 ,这 是 一 个 MNL 模型 。 该 结果 
可 通过 积分 且 类 似 于 二 值 情 况 的 简化 来 获得 (参见 14. 8 节 ), 或 者 作为 15. 6 节 推 
导 的 逝 套 logit 结果 的 一 种 特殊 情况 。 因 此 ,条 件 logit 与 多 项 式 logit 模型 可 从 
ARUM 多 得 。 

误差 e; 对 于 不 同 选项 j 来 说 是 独立 的 这 个 假设 ,表现 得 约束 性 太 强 ,因为 若 两 
个 选项 类 似 , 可 能 就 会 违背 它 。 例 如 ,假定 选项 1 与 选项 2 是 类 似 的 。si 的 很 小 值 
(也 就 是 说 ,大 的 且 负 的 ) 会 导致 对 选项 1 效用 的 过 度 预 测 。 随 后 ,我 们 同样 会 过 度 
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预言 选项 2 的 效用 ,所 以 ez 也 取 很 小 值 。 由 于 si 与 ez 的 很 小 值 会 趋 于 一 致 ,同时 
对 于 很 大 值 来 说 ,类 似 地 ,误差 必 是 相关 的 。 这 是 以 另 一 种 方式 看 待 * 红 色 公 共 汽 
车 一 蓝 色 公共 汽车 ?问题 ,而 且 它 是 logit 无 关 选 项 的 独立 性 假设 失败 的 证 明 。 
”广义 极 值 模型 与 幅 套 logit 模型 (参见 15. 6 节 ) 都 放松 了 极 值 误差 对 不 同 选择 

是 独立 的 假设 。 误 差 以 不 同 组 具有 独立 性 而 得 以 分 组 , 却 允 许 组 内 相关 。 于 是 ,对 
选择 概率 来 说 ,可 利用 闭 形式 解 。 尽 管 这 些 模 型 比 MNL 模型 组 内 无 关 的 特殊 情 
况 更 为 丰富 ,但 在 许多 应 用 中 ,对 误差 分 组 显然 有 点 任意 性 。 

随机 参数 logit 模型 (参见 15. 7 节 ) 将 可 加 随机 性 引入 导致 效用 对 不 同 选 项 相 
关 的 MNL 模型 之 中 。 这 是 广义 随机 效用 模型 的 例子 (参见 15. 7. 3 节 )。 

正 态 分 布 误差 

如 有 果 假 定 误差 s ，…,e 服从 联合 正 态 分 布 ,就 得 出 多 项 式 probit 模型 (参见 
15. 8 市 )。 与 第 1 类 型 极 值 的 这 种 误差 假设 相 比 ,是 更 为 自然 的 起 点 。 它 允许 出 现 
韭 常 丰 定 的 相关 结构 ,只 是 以 需要 使 用 数值 方法 或 模拟 方法 作为 代价 ,而 这 两 种 方 
法 都 适应 (一 1) 变 量 正 态 分 布 。 


15. 3.3 和 随机 至 用 模型 与 一 致 性 


阐述 选择 概率 位 于 0 与 1 之 间 的 解析 表达 式 , 同 时 对 选项 求 和 为 1 总 是 可 能 
的 。 一 种 相当 一 般 的 例子 是 普 适 logit 模型 (15. 13) 。 经 济 计 量 学 文献 极为 重视 多 
项 式 模 型 ,多项式 模 型 与 对 随机 效用 函数 求 最 大 值 相 一 致 。 这 类 似 于 对 需求 函数 
的 限制 分 析 ,此 种 需求 函数 与 消费 者 选择 理论 相 - 一 致 。 

设 V 王 (ww ，…V。)。 由 人 和 尔 施 一 祖 潘 (Borsch-Supan，1987, 第 19 页 ) 知 ,一 
组 选择 概率 p;(V) 与 对 ARUM 求 最 大 值 并 不 矛盾 ,7 一 1，……m， 如 果 : 

1. 对 于 所 有 aER, p;(V)0, ”pj(V)=1, p;(V)=p;, (V+a):; 

2. 3p;(V) /9V, =9p, (V) /9V,; : 

3. 9™，p;(V)/9Vi… [9V;j]… 9Vm 之 0, 其 中 , 方 括号 表示 被 省 略 的 项 。 

这 些 条 件 归 功 于 威廉 姆 (Willam，19771) . 戴 利 和 扎 卡 里 (Daly and Zachary， 
1979) 以 及 麦克 法 登 (McFadden，1981)。 该 条 件 依 次 确保 : (1) 特性 良好 的 概率 与 
变换 不 变性 ;(2) p; 的 可 积 性 类 似 于 斯 户 获 基 (Slutsky) 和 条件 ;(3) 对 应 于 ARUM 
中 误差 的 分 布 困 数 具有 正常 ( 非 负 的 ) 密 度 函 数 。 


15. S$S. 4 福利 分 术 


利用 多 项 式 模型 的 一 个 主要 优点 是 ,可 用 随机 效用 模型 进行 福利 分 析 。 于 是 ， 
人 们 能 对 选择 的 一 个 或 多 个 决定 因素 的 变动 效应 赋予 美元 价值 ,诸如 在 交通 方式 
选择 方面 的 旅行 价格 或 者 时 间 成 本 。 

标准 的 福利 分 析 (welfare analysis) 运 用 补偿 变化 或 等 价 变 化 。 式 (15. 22) 的 确 
定性 效用 成 分 被 设 定 成 间接 效用 函数 


V;=V(I—p;, x,) (15. 27) 
其 中 ,I 表示 收入 ,p; 表示 第 7 个 选项 的 价格 ,而 x; 表示 与 第 j 个 选项 联系 的 特征 。 
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为 了 记号 简单 ,不 用 未 知 回归 参数 86。 选项 j 的 效用 是 : 
U, —U(I—p,,，, Xj;s e; )—=V(I—p;, Xi ) 十 e， (15. 28) 


假定 我 们 变动 特征 从 x; 到。 然后 ,补偿 变化 (compensating variation)CV 是 
为 使 效用 保持 在 其 最 初 水 平 上 而 需要 收入 的 变动 ,因此 ,具有 收入 了 与 特征 xj; 的 可 
达 最 大 效用 水 平 必须 等 于 具有 收入 (I 一 CV 与 特征 的 可 达 最 大 效用 水 平 。 因 
而 ,补偿 变化 CV 可 以 用 隐 性 方式 定义 成 下 式 的 结果 ， 


max U(I—p;, X， ， ej)—= max U(I—CV—p;, x , €;) (15. 29) 
je je 


举 一 个 例子 ,考察 两 个 选择 的 模型 ,其 中 ,Uj 二 I 十 zj 十 6;,j 王 1,2, 而 且 纯 量 x 
变动 从 xi 到 x;。 于 是 ,存在 四 种 可 能 性 。 如 果 对 选项 1 被 选取 前 后 进行 对 比 , 那 
么 CV 二 (一 X10) ;从 而 本 = 二 1 一 CV 十 十 @j 二 7 十 zi 十 二 UV1。 类 似 地 ,如 果 对 选 
项 2 被 选取 前 后 进行 对 比 ,那么 CV 二 (zs 一 zz)。 如 果 发 生 从 选项 1 到 2 的 变动 ， 
那么 Us 二 莹 含 I 一 CV 十 zz 十 ez 二 I 十 Xi 十 e1 ,这 区 含 CV 二 x2 一 XT1 十 gz 一 el1 。 类 
似 地 ,如 果 发 生 从 选项 2 到 选项 1 的 变动 ,那么 CV 二 zi 一 zz 十 e1 一 ez 。 更 一 般 地 ， 
对 于 zm 个 选择 来 说 ,如 果 工 变化 导致 从 选项 ; 到 选项 上 的 变动 ,那么 在 此 样本 例子 
中 ,补偿 变化 是 CVis 二 Vi 一 Vi 十 ep 一 8j。 

补偿 变化 依赖 于 可 观测 值 CT， 户 以 及 x;) .可 加 以 估计 的 参数 以 及 不 可 观测 的 
误差 s 。 不 可 观测 的 因素 可 通过 计算 期 望 补 偿 变 化 ELCWj 加 以 剔除 ,这 涉及 对 si 
进行 积分 。 由 前 面 例 子 知 ,应 该 很 明显 ,这 个 积分 相当 难 计 算 。 达 格 斯 文科 和 卡尔 
斯 特 罗 姆 (Dagsvik and Karlstr5om，2004) 曾 提供 相当 一 般 的 结果 ,15. 6. 5 市 将 进 
一 步 讨论 。 

对 于 某 些 模型 来 说 ,ELCVj 不 存在 解析 解 。 人 们 转 而 需要 对 式 (15. 29) 所 定义 
的 关于 CV 的 si; 函数 进行 数值 积分 。 由 12. 3. 2 节 知 ,此 积分 能 以 下 述 方 式 进行 
模拟 : 

1. 对 于 源 自 es 一 (sl ，……en) 分 布 的 个 采样 s: 进行 迭代 。 

2. 由 max UI p;, X;, €)= max U(IT CV Tp;, % ，ei ) ,计算 出 CV'。 

3. 重复 第 步 与 第 二 步 3 次 。 

4. 利用 S -12 1CV: 估 计 ELCV]。 

对 于 样本 中 的 每 一 个 个 体 , 该 方法 都 会 得 到 ELCVJ。 一 旦 进行 平均 ,可 能 利 
用 那个 权 数 , 则 得 到 总 体 估 计 。15. 6. 5 节 将 讨论 GEV 模型 的 一 个 应 用 。 


15.6 骸 套 logit 


最 套 logit 是 多 项 式 模 型 在 解析 形式 上 最 容易 处 理 的 推广 。 当 存在 明显 朋 套 
结构 时 , 嵌 套 logit 是 一 种 理想 的 模型 ,但 并 不 是 所 有 的 多 项 式 选 择 应 用 都 具有 明 
确 的 艇 套 结 构 。 


15.6.1 广 闵 极 值 模 型 
麦克 法 登 (McFadden，1978) 曾 提出 建立 在 下 述 假 设 之 上 相当 一 般 的 模型 类 


微观 经 济 计量 学 


别 , 该 假设 为 误差 的 联合 分 布 是 具有 联合 分 布 函数 : 
Fe E233""" ,en ) 一 expl —G(e al 已 “2 9 ) | (15., 30) 


的 广义 极 值 (generalized extreme value, 记 为 GEV) 分 布 ,其 中 ,GOY]l ,Y;,…,Y,) 也 
数 被 设 定 成 满足 一 系列 假设 :包括 非 贷 性 ,自由 度 为 1 的 齐 性 ,偶数 阶 的 混合 偏 导 
数 为 连续 的 且 非 正 的 ,而 奇数 阶 混合 偏 导 数 为 非 负 的 ,同时 limy -=-GC Yaz，…， 
Ym ) 二 oo。 这些 假 设 确保 了 ,联合 分 布 与 所 得 到 的 边缘 分 布 都 是 良好 定义 的 且 概 
率 之 和 为 1。 

倘 铬 误差 服从 GEYV 分 布 ,就 能 获得 随机 效用 模型 (15. 22) 中 的 概率 显 性 解 , 其 
满足 : 
Ge Vi,e ya ,€ Ym) 
Gle ye ve “m) 
其 中 ,G; (Yi YY) 一 9G(Y YY,)/3aYi[ 参 见 麦 克 法 登 (McFadden， 
1978 ,第 81 页 ) ]。 

通过 对 CC(Yi,Yz，…,yY") 的 不 同 选取 , 就 能 获得 广泛 的 模型 。 当 G (Yi， 
YoY) 二 277217 时 ,可 获得 MNL 模型 ,因此 ,MNL 模型 是 一 种 GEV 模型 。 
另 一 种 广泛 运用 的 GEYV 模型 是 藤 套 logit 模型 。 


15.6.2 艇 套 logit 模型 


腻 套 logit 模型 将 决策 分 成 一 些 组 。 一 个 简单 例子 是 ,考察 对 大 学 的 选择 ,其 
中 人 们 首先 决策 是 否 上 两 年 制 或 四 年 制 大 学 ,然后 对 这 两 种 路 径 中 的 每 一 组 决定 
是 上 公立 的 还 是 私立 的 大 学 。 对 这 种 情形 作 图 说 明 如 下 : 





p;=PrL y=)j=e’ (15. 31) 


大 学 
pd ~ 
2 年 制 4 年 制 
po 
私立 公立 私立 公立 


在 两 年 制 组 与 四 年 制 组 的 每 个 组 内 ,允许 随机 效用 模型 的 误差 对 每 个 选项 是 相关 
的 ,但 对 两 个 组 来 说 ,误差 是 不 相关 的 。 

更 一 般 地 讲 ,我 们 假定 在 项 部 水 平 存在 J 个 要 选择 的 枝 。 第 7 校 具 有 天; 个 分 
支 , 它 们 记 为 庆 ,…,j&k,…,jK;。 于 是 ,对 于 J 个 枝 中 第 7 梳 且 开 ; 个 分 支 中 第 & 分 
文选 项 来 说 ,其 效用 是 : 


Us; = Vj ejr, k=1,2,."…,K,;, 7 一 1 2 (C15. 32) 


其 中 对 于 m 种 选择 模型 而 言 ,Ki 十 … 十 Kj 二 mm。 这 可 闸 明 如 下 : 


第 1 枝 * 第 7 校 “ 第 了 枝 
第 1 分 支 .… 第 Ki 分 支 … 第 4 分 支 … 第 1 分 支 … 第 Kj 分支 
Vi 十 ey .， Var 二 ek) . Vw 十 EA .。。 VD 十 eji ,。。 Vk] 十 EJK 
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可 能 存在 另 一 些 水 平 , 其 中 第 三 个 水 平 是 细 枝 等 。 为 了 记号 简单 起 见 , 我 们 阐述 两 
水 平 模型 的 结果 。 

对 于 含有 这 种 艇 套 的 任何 模型 来 说 ,作为 第 ; 枝 且 第 & 分 支 的 联合 概率 能 被 
分 解 因子 加 一 一 选择 第 7 枝 的 概率 一 一 乘 以 以 第 j 枝 为 条 件 选择 第 & 分支 的 概 
率 。 因而 ,有 : 





Pit — Pp; X pel 
当 误 差 项 ej, 具有 GEYV 联合 累积 分 布 函数 : 
Fl(e)=exp[ —G(e ,ee Ky oorsE ,eC YK )] (15. 33) 
对 于 函数 C( 的 下 述 特殊 设 和 定 


1) EK 
Cr(Y) 一 GY KK YIJ1 KK) 一 一 > \ ( > Yl/ ) (15. 34) 
7 一 ] R=] 


来 说 ,就 产生 麦克 法 登 (McFadden，1978) 相 套 logit 模型 。 参 数 o 表示 ein 与 ej 之 
间 的 相关 函数 ,但 不 精确 地 等 于 相关 参数 。 实 际 上 ,可 以 证 明 ,o 等 于 
V1 一 CorlLex ,ej ,因此 ,ww 反 过 来 与 相关 性 有 关 , 而 且 我 们 希望 0 过 wj; 志 1。 选 取 
0 一 1 对 应 于 ej4 写 ej 的 独立 性 ,从 而 导致 MNL 模型 。 我 们 称 参 数 po, 为 标 度 参 
数 5131(scale parameter) , 因为 它们 对 下 述 所 要 考察 模型 的 回归 参数 进行 标 度 。 

记号 会 因 作 者 不 同 而 出 现 相 当 大 的 变化 。 麦 克 法 登 (McFadden，1978) 与 马 
达 拉 (Maddala, 1983) 却 以 oj 二 1 一 p; 来 定义 这 个 cdf , 称 为 非 相 似 参 数 (dissimilari- 
ty parameter)。 男 外 一 些 作 者 则 使 用 jj 二 1/p;。 许 多 作者 对 第 x 个体 的 选项 ii 进 
行 建 模 , 然 而 我 们 对 选项 jk 进行 建 模 ,同时 把 i 用 于 第 i 个 个 体 。 

当选 项 jk 被 选 上 时 ，yi 结果 指 示 变 量 等 于 1 ,否则 为 0。 然后 ,由 式 (15. 32) 
A ,p= Pr yn =1|==Pr[LU,; 之 Uw， 对 于 所 有 l,mj。 作为 Vi 与 oj 函数 的 概率 
Pi 的 团 形式 解 将 在 15. 12. 3 节 加 以 推导 。 于 是 ,对 特殊 的 确定 效用 隆 数 : 


Vi =Za 十 xj. [3 ， k=1,*…,K,, 7 二 1] ,J (15. 35) 
计算 这 些 值 ,其 中 ,z 仪 仅 随 着 枝 而 变化 ,而 x 则 既 随 村 又 随 分 支 不 同 而 变化 。 参 


数 a 与 B 称 为 回归 参数 (regression parameters)， 
GEYV 模型 (15. 32) 一 (15. 35) 会 产生 髓 套 logit 模型 (nested logit model)， 


pi = p; X pri = i xp wo psd) exp Bp (15. 36) 
n=1 EXP ZnO 十 Oo 了 2 ) li1EXp(K 3 /p;) 
参见 15. 12. 3 节 , 其 中 : 
K, 
1; = ln( > exp(x%8 /0;)) (15. 37) 
t=1 


称 为 相 容 值 Cinciusive value) 或 者 对 数 和 (log-sun)。 骨 套 logit 模型 的 引 人 注 目 之 
处 是 ,概率 p; 与 pji; 本 质 上 都 具有 条 件 logit 形式 。 


C1 又 称 为 尺度 参数 。 一 一 译 者 注 
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前 面 结 果 是 关于 对 不 同 选项 都 是 变化 的 回归 元 的 。 经 过 一 些 代 数 运 算 , 可 适 
应 于 选项 不 变 回 归 元 Vi 一 Zo 十 X[B, 对 2 进行 正规 化 为 1。 所 需 做 的 全 部 内 
容 ,在 代数 形式 上 就 是 划分 Vj = 和 A, 二 B,, ,其 中 ,A; 涉及 校 , 而 B,: 既 涉 及 枝 又 涉及 
分 支 。 


15. 6.3 ” 族 套 logit 前传 计 


对 于 第 i 个 观测 值 来 说 ,我 们 可 观测 到 Ki 十 … 十 K) 个 结果 ,当选 项 被 选取 
时 ， Vijk 一 | , 否则 yi 一 0。 于 是 ， por — pirl; X pi ’ 而 且 观 测 值 一 (人 yi ? .yiK 1 ) 
的 密度 能 以 简洁 方式 表述 成 : 


] K) 
Yi) I I Ep; X pi; Yi = 一 1 (2 If Pik1j;™A ) 


其 中 ， 当 枝 7 被 选取 时 ”Yi 一 2 yi 等 于 1 , 售 则 yj; 为 0。 z 
关于 样本 密度 是 IJ, f(y;)。FIML 估计 量 (FIML estimator) 对 参数 a 、B, 以 
及 p; 求 z 


K 


N J N J 
nL = 2 2 yn ps 2 2 2 yinln pa (15. 38) 


;一 ] j=1 ji 一 1 ) 一 1 大 一 1 


Ye 


的 最 大 值 。 

一 种 可 供 选 择 的 方式 , 较 少 有 效 的 估计 是 序 贯 估计 量 (sequential estimator) 或 
者 LIML 估计 量 , 而 LIML 估计 量 利 用 了 把 pj 分 成 pu; 与 pb; 的 乘积 。 第 一 阶段 估 
计 是 根据 式 (15. 38) 右 边 第 二 项 来 进行 的 ,由 式 (15. 36) 知 ,这 是 含有 估计 参数 
B;/p; 的 条 件 logit。 第 二 阶段 估计 是 根据 右边 第 一 项 来 进行 的 ,由 式 (15. 36) 知 ， 
这 是 含有 添加 回归 元 1;; 的 条 件 logit 模型 , 式 (15. 37) 中 相 容 值 的 估计 值 可 利用 第 
一 阶段 参数 估计 值 计算 出 来 。 从 第 二 阶段 可 直接 获得 & 与 6;, 而 BG 等 于 56; 乘 以 第 

写 FIML 佑 计量 相 比 ,这 种 序 贯 佑 计量 的 有 效 性 稍 差 一 些 , 而 且 在 第 二 阶段 ， 
通常 CL 标准 误差 低估 了 序 贯 估计 量 的 真实 标准 误差 ,因为 它们 并 没有 考虑 计算 
相 容 值 的 估计 误差 。 麦 克 法 登 (McFadden, 1981) 曾 给 出 校正 标准 误差 的 公式 ,或 
者 使 用 上 自助 法 。 每 当 条 件 logit 模型 估计 过 到 挑战 时 ,最 初 就 要 提出 一 种 其 他 可 供 
选择 的 序 贯 佑 计量。 现在 , 对 似 然 函 数 编程 来 说 相对 简单 ,所 以 最 好 是 使 用 
FIML。 序 贯 估计 潜在 地 有 助 于 提供 初 值 ,因为 FIML 对 数 似 然 不 是 全 局 目的 。 

举 一 个 例子 ,我 们 把 府 套 logit 模型 应 用 到 15. 2 节 的 数据 上 。 骨 套 结构 在 较 
高 水 平 上 是 岸上 钓鱼 或 船上 钓鱼 ,其 较 低 水 平 是 岸 边 或 码头 (岸上 钓鱼 ) 以 及 私家 
船 或 租 船 ( 船 上 钓鱼)。 式 (15. 36) 中 ,在 较 低 水 平 变 化 的 问 归 元 是 价格 (PP) 与 捕获 
率 (C) 。 在 较 高 水 平 变 化 的 回归 元 到 对 于 岸上 或 船上 来 说 是 一 个 指示 变量 & , 当 在 
岸上 钓鱼 时 有 d= 二 1, 而 dXT 表示 收入 与 岸上 钓鱼 指示 变量 的 交互 作用 。 通 过 条 
件 logit( 对 应 于 m 三 二 1 加 以 估计 ,得 到 带 有 lInL 二 一 1 252 的 拟 合 模 型 ,如 同 预 
期 的 ， 比 类 似 的 对 数 似 然 要 小 一 些 , 只 是 不 及 由 表 15. 2 的 最 后 一 列 给 出 的 约束 模 
型 。 对 应 的 散 套 logit 模型 的 FIML 估计 ,其 中 ,pi 与 pz 现在 可 自由 变化 ,会 产生 
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更 大 一 些 的 对 数 似 然 模型 ,并 利用 XxX (2) 似 然 比 检验 统计 量 对 更 有 约束 性 的 条 件 
logit 模型 拒绝 。 


“15.6.4 讨论 


铅 套 logit 模型 的 主要 局 限 性 是 ,不 是 所 有 的 选择 问题 都 具有 明显 舱 套 结构 。 
人 们 还 能 利用 似 然 比 检 验 或 赤 池 信息 准则 ( 尽 可 能 适当 ) 选 择 最 优 艇 套 方案 。 不 
过 ,所 得 到 的 方案 并 不 总 是 与 先 验 预 期 相 吻 合 。 

另 一 个 实际 问题 是 ,含有 源 自 ARUM 选择 的 极 套 logit 模型 的 一 致 性 ,需要 
15. 5. 2 节 的 三 个 条 件 都 得 以 满足 。 这 些 条 件 中 的 第 ;个 会 全 局 性 地 得 以 满足 , 当 
Oo 委 1 时 ,对 具有 多 于 两 个 水 平 的 明 套 来 说 , 它 会 另外 要 求 在 能 套 结 构 较 高 水 平 
的 op 不 大 于 榴 套 的 较 低 水 平 的 o。 在 实际 应 用 中 ,获得 位 于 单位 区 间 之 外 的 w 估 
计 值 是 可 能 的 。 由 于 选择 概率 是 正常 的 ,所 以 人 们 还 能 够 运用 此 模型 ,只 是 模型 不 
再 来 自 ARUM。 们 尔 施 一 祖 潘 以 及 一 些 其 他 人 曾经 考察 了 ,在 凡 套 logit 模型 可 
以 与 ARUM 一 致 的 条 件 下 的 局 部 识别 条 件 , 即 使 w 位 于 单位 区 间 之 外 。 为 了 把 
oj 限制 到 单位 区 间 上 , 且 统 计 出 对 数 似 然 的 减少 , 符 有 的 话 ,这样 做 要 小 心 谨 愤 ,对 
oj 进行 格 点 搜索 是 有 用 的 。 

由 式 (15. 36) 与 式 (15. 37) 定义 的 般 套 logit 模型 是 由 麦克 法 登 (McFadden， 
1978) 提 出 的 ,他 把 它 推导 成 GEV 模 刑 。 髓 套 logit 模型 的 较 早 变形 (earlier vari- 
ant) 类 似 于 式 (15. 36) 与 式 (15. 37), 只 是 exp(x%B;/p;) 要 用 exp(xiB;) 来 代替 。 
由 于 CL 是 满足 oj; 二 1 的 式 (15. 36) 与 式 (15. 37) 的 特殊 情况 ,所 以 这 拥有 一 种 可 供 
选择 的 作为 CL 模型 的 自然 推广 的 推导 。 参 见 麦 克 法 登 (McFadden，1978 ,第 79 
页 ) .马达 拉 (Maddala，1983 ,第 70 页 ) 以 及 格林 (Greene，2003 ,第 726 页 )。 

非常 重要 的 是 ,要 注意 到 , 当 mw 对 不 同 选项 各 不 相同 时 , 出 现 的 两 种 变形 就 不 
一 样 ; 参 见 科 佩 尔 曼 和 温 (Koppelman and Wen，2003 ,第 88 页 )。 对 艇 套 logit 模 
型 产生 怀疑 , 某 些 早期 研究 所 获得 的 序 贯 估计 本 质 上 不 同 于 FIML 估计 。 不 过 ,在 
此 类 研究 中 ,各 种 不 同 估计 量 可 应 用 到 机 套 logit 模型 的 不 同 变形 上 。 此 外 ,甚至 
当今 各 种 软件 包 都 可 以 估计 各 种 变形 模型 。 

般 套 logit 模型 能 推广 到 较 高 水 平 的 选项 上 (或 能 套 上 上 )。 例 如 , 戈 德 堡 (Gold- 
berg，1995) 给 出 5 个 水 平 :(1) 购买 汽车 ;(2) 购买 给 定 的 新 车 ;(3) 购买 已 经 用 过 
2 年 的 9 类 汽车 的 一 类 ;(4) 外 国产 的 车 或 国产 车 ;(5) 式样 。 如 果 某 个 般 套 具有 
许多 选择 ,那么 其 他 引 人 注 目 之 处 是 ,足以 根据 选项 的 固定 选取 子 集 或 者 随机 选取 
子 集 来 进行 估计 。 


15. 6.5 福利 分 本 


关于 ARUM 的 福利 分 析 , 已 在 15. 54 节 曾 述 过 。 通 常 ,ELCV]j 并 不 存在 解 , 姑 
预期 的 补偿 变化 。 

值得 注意 的 是 ,对 于 收入 为 线性 的 GEV 模型 来 说 ,V (I 一 pj; ,Xj) 二 a(I 一 pj;) 十 
f(x;) ,麦克 法 登 (McFadden，1995) 以 及 早先 一 些 研 究 者 证 明 , 存 在 显 性 解 : 
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ELCV]== (In Ge ET ) 一 in Ge eVr ) ) 


其 中 ,关于 GEYV 分 布 的 函数 G(*) 已 在 式 (15. 34) 中 定义 ,而 Vj; 与 Vj; 表示 效用 的 
确定 性 成 分 前 后 的 值 。 : 

不 过 ,就 含有 收入 的 GEV 模型 而 言 ,不 存在 显 性 解 。 于 是 ,一 种 方法 是 由 
15. 54 节 给 出 的 模拟 方法 。 对 于 多 项 式 logit 模型 来 说 ,这 是 简单 的 ,因为 很 容易 利 
用 12. 8.2 节 的 变换 方法 抽取 极 值 误 差 , 也 就 是 说 ,从 (0，1) 均 匀 分 布 上 采样 ,然后 
令 e 一 一 In( 一 In(w))。 然 而 ,对 于 更 一 般 的 嵌 套 logit 模型 来 说 ,从 GEV 分 布 中 进 
行 随机 采样 很 困难 ,甚至 对 像 二 变量 极 值 那样 如 此 简单 的 情况 亦 如 此 。 麦 克 法 登 
(McFadden，1995) 和 曾经 提出 ,利用 满足 梅 特 罗 流 利 斯 一 黑 斯 廷 斯 算法 的 MCMC 
(参见 13. 5 节 ) 。 替 里 格 斯 和 克 林 (Herringes and King，1999) 给 出 利用 包括 超越 
对 数 的 各 种 间接 效用 函数 ,将 这 种 模拟 方法 用 于 15. 2 节 钩 鱼 数据 的 骨 套 logit 模 
型 上 的 一 个 极 好 综述 。 

最 近 , 达 格 斯 文科 和 卡尔 斯 特 罗 姆 (Dagsvik and Karlstr5m，2004) 进 一 步 证 
明 ,尽管 大 以 非 线 性 方式 包括 收入 ,GEYV 模型 就 不 会 存在 ELCY 的 显 性 解 ,但 在 解 
析 形 式 上 可 能 将 ELCVj 简化 成 一 维 积分 。 与 利用 前 面 提 及 的 模拟 方法 相 比 ,运用 
高 斯 积分 对 此 积分 进行 计算 ,将 更 加 简单 一 些 。 


15.7 随机 参数 logit 


随机 参数 logit 模型 提供 一 种 简单 方式 来 推广 MNL 或 CL 模型 ,以 使 每 个 先 
项 的 效用 成 为 相关 的 。 该 模型 或 许 是 微观 经 济 计量 学 关于 横 截面 数据 的 随机 参数 
模型 的 重要 例子 。 


1S.7.1 大 机 参 数 logit 模型 


随机 参数 logit (了 RPL) 模 型 | ranucm parameters logit (RPL) model | 是 将 第 i 个 
个 体 对 第 7 选项 的 效用 设 定 成 : 
LU 一 Xi 十 ey ， j=1,2,*…,m (15. 39) 
其 中 ,sz 表示 iid 的 极 值 ,如 同 CL 模型 一 样 , 只 是 另外 允许 参数 及 成 为 随机 的 。 一 
种 最 普 遇 的 假设 是 : 
B ~NLB, Zs) (15. 40) 
一 种 变形 是 运用 参数 的 对 数 正 态 分 布 , 而 不 是 正 态 分 布 ,其 符号 为 已 知 先 验 。 倘 者 
在 面板 背景 下 信用 含有 随机 参数 模型 的 本 语 , 可 将 这 个 模型 也 称 为 混合 logit 模型 
(mixed logit model) 。 通 过 将 MNL 模型 重新 表述 CL 模型 ,所 得 到 的 结果 同样 涵 
新 随机 参数 的 MNL 模型 。 
此 模型 能 重新 写成: 
U, =—=x;; 0 vw 


J 
Ti} A 和 十 si 


和 9 多 项 式 模型 


其 中 ,一 人 | 0， 2 ]。 于 是 ,Cov[ wv; ,Ui | 一 Xi Bg 外 这》 7 天 碌 。 因此 ,引进 随机 参数 
具有 5 引 人 注目 的 性 质 .可 推导 出 不 同 选 项 之 间 的 相关 性 。 

在 大 多 数 应 用 中 , 协 方差 矩阵 Bs 被 设 定 成 对 角 的 ,而 且 一 些 对 角 元 素 额外 地 
为 0。 于 是 ,要 估计 的 协 方差 参数 的 个 数 等 于 6B 的 设 定 成 随机 的 分 量 个 数 。 

举 一 个 例子 ,考察 含有 纯 量 回归 元 且 参 数 为 8 与 cs 的 混合 CL 模型 。 假 定 参 
数 估计 值 是 8 一 2. 0, 其 标准 误差 为 0. 5, 同 时 名 二 1.0, 其 标准 误差 为 0.2。 于 是 ， 
由 于 :一 1. 0/0. 2 一 5. 0, 所 以 常 值 参数 的 零 假 设 即 如 二 0 被 强烈 地 拒绝 。xi; 增 大 对 
PrLy 三 让 的 效应 会 随 着 个 体 而 变化 ,同时 是 正 的 且 为 样本 的 大 约 97. 5%, 因 为 估 
计 表 明 B&B 一 AL2.0，1. 0j。 对 于 强调 估计 系数 的 应 用 来 说 ,参见 雷 维 尔 特 和 特 雷 
导 (Revelt and Train，1998) 。 

行业 组 织 文献 考虑 了 ,类 似 于 利用 市 场 水 平 (market level data) 数 据 对 模型 用 
户 进行 加 总 (aggregation) ,以 此 估计 需求 参数 的 RPL 模型 。 例 如 ,参见 贝 里 (Ber- 
ry，1994) 与 庆 夫 (Nevo，1994) ,以 及 区 伦比 和 罗 西 (Allenby and Rossi，1991) 。 


15.7.2 随机 参数 logit 的 估计 


在 含有 随机 参数 的 线性 回归 模型 中 ,OLS 估计 会 产生 均值 8 的 估计 ,这 尽管 是 
无 效 的 , 却 是 一 致 估计 值 。 然 而 ,在 非 线 性 模型 中 ,因为 参数 的 随机 性 而 无 法 控制 
的 佑 计量 将 是 非 一 臻 的 。 因 而 ,如 果 数 据 生 成 过 程 是 由 式 (15. 39) 与 式 (15. 40) 给 
出 的 ,那么 通常 的 条 件 logit MLE 将 是 非 一 致 的 。 然 而 ,ML 估计 必须 以 显 性 方式 
解释 关于 及 的 随机 过 程 。 

若 太 是 已 知 的 ,因此 唯一 的 随机 性 来 源 是 sj ,; 则 以 概率 p;; 一 e%4 7 二 疡 iew4 可 
获得 CL 模型 。 实 际 上 ,由 于 成 是 随机 的 ,我 们 要 通过 积分 去 掉 该 随机 性 。 从 而 ， 
得 到 


p; 一 Pr[y 一 门 二 | A$ (BO, Zo)dp. (15. 41) 


其 中 积分 是 多 维 数 的 ,而 $C(B 1B，5s ) 表示 关于 6B 的 多 变量 正 态 密度 ,其 均值 为 
G 且 方差 为 zo 。 

MLE 对 In Ly = 2 2791Yi1ln py 求 关 于 6B 与 3 的 极 大 值 。 其 挑战 是 积分 不 
存在 闭 形 式 解 ,积分 维 数 是 由 6B; 的 分 量 个 数 给 出 的 ,可 是 6B; 为 随机 的 并 具有 非 零 
方差 。 因 此 ,通过 模拟 方法 加 以 估计 。 

一 种 方法 是 利用 直接 模拟 器 通 近 p;; (参见 12. 4. 1 节 )。 这 要 用 被 积 函 数 在 从 
ANALBG,zYop | 分布 中 随机 采样 8, 处 S 个 讨 算 信 的 平均 值 来 代替 积分 (15. 41) 。 于 是 ， 
MSL 估计 量 (MSL estimator ) 为 : 


_ N m ] S XB 
In Ln (8,3g ) 一 2 之 yyln| 芯 2 Sm | (15. 42) 


其 中 ,Bi”,，s 一 1,…,S 表示 从 密度 $4 (6B.;[B,3s ) 获 得 的 随机 采样 ,由 于 6 与 zo 均 
是 未 知 的 ,所 以 这 种 求 和 被 能 人 在 8 与 5 ”处 计算 的 > 次 迭代 程序 。 一 致 性 需 
要 S 一 co 以 及 N 一 oo, 同时 VN/S 一 co( 参 见 12. 4. 3 节 ) 。 快 速 计算 方法 包括 使 


微观 经 济 计量 学 


-人 


用 霍 尔 顿 序列 (参见 12. 7.4 节 ) 以 及 可 供 选 择 的 模拟 器 。 

一 种 可 供 选 择 的 估计 量 是 ,运用 具有 相对 平坦 先 验 的 贝 叶 斯 方法 。 特 雷 思 
(Train，2001,2003) 设 定 阶 层 先 验 满足 8 ~NWLO ,2 ,其 中 假定 人 是 大 的 ,而 
假定 ze 是 逆 威 沙特 分 布 ,其 自由 度 KK 二 dim[ Bj, 而 且 标 示 度 数 lx。 为 了 另外 包括 
Bi;, i 二 1,…,NN, 宁 愿 以 8 与 zo 的 后 验 开 始 研 究 , 它 在 计算 上 比较 迅速 。 于 是 有 : 
(1) 关于 B13s，B; 的 条 件 后 验 是 正 态 的 ;(2) 关于 236|B，B; 的 条 件 后 验 是 逆 威 沙 
特 的 ;(3) 关于 6B. | 的 条 件 后 验 是 BB, 这 与 式 (15. 41) 的 被 积 函 数 成 比例 。 已 知 
这 些 条 件 后 验 , 利 用 吉 布 斯 抽样 器 的 变形 加 以 估计 (参见 13. 5. 2 节 ), 其 新 的 复杂 
问题 是 ,对 第 三 个 后 验 采 样 需要 运用 梅 特 罗 波 利 斯 一 黑 斯 廷 斯 算法 迭代 (人 参见 
13. 5. 4 节 ) ,因为 没有 完整 的 条 件 集合 可 以 利用 。 在 应 用 中 ,已 知 相 对 平坦 先 验 ， 
计算 会 花费 掉 类 似 于 MSL 估计 量 的 计算 时 间 , 得 到 的 参数 估计 值 与 标准 误差 通常 
位 于 源 自 MSL 估计 的 那些 值 的 10% 之 内 。 


15.7.3 广义 随机 辫 用 模型 


比 多 项 式 logit 更 灵活 的 模型 是 人 们 所 期 盼 的 。 就 此 而 言 ,最 近 人 们 对 随机 参 
数 logit 模型 投入 了 极 大 热忱 。 麦 元 法 登 和 特 雷 思 (McFadden and Train，2000) 已 
经 证 明 ,任何 随 机 效用 模型 都 能 很 好 地 通过 混合 模型 来 任意 帝 近 ,尽管 这 个 结果 和 需 
要 对 回归 元 与 混合 分 布 进行 适当 选择 。 

把 随机 参数 方法 限制 到 多 项 式 logit 模型 上 并 不 存在 什么 缘由 。 例 如 , 它 可 被 
推广 到 肉 套 logit 模型 上 。 男 外 ,随机 性 的 额外 来 源 可 被 并 入 进 来 ,尤其 是 潜 类 型 
与 沪 变 量 ，。 

为 了 阐述 这 些 表达 式 , 我 们 以 ARUM(15. 22) 来 开始 。 这 里 将 个 体 i 对 第 j 个 
选项 的 效用 设 定 成 U, =V,; (xX; , /3) te;; ,其 中 »X, 表示 观测 数据 ,OB 表示 未 知 参 数 ， 
而 se; 表示 误差 ,对 于 不 同 i 来 说 ej 是 独立 的 ,但 对 不 同 7 而 言 sz 可 能 是 相关 的 。 假 
定 si 的 分 布 使 得 式 (15. 23) 产 生 选 择 概率 的 闭 形式 解 ,该 选择 概率 记 为 : 


pi —F,(V,(x; ,9) ,0. ) 


其 中 ,VV, (x; ,DG) 一 [Vi (xX; DG) »V im (X; ,BB) | ,而 0. 表示 ej; 二 (en ，;… ;Eim ) 分 布 的 任 
何 未 知 参 数 。 倘 若 s 服从 GEYV 分 布 , 可 能 得 出 这 种 闭 形式 解 , 对 于 特定 情 帝 来 
说 ,会 导致 多 项 式 logit 模型 以 及 髓 套 logit 模型 。 

更 一 般 的 模型 将 引入 其 他 的 随机 性 。 首 先 ,前 面 的 效用 确定 部 分 变 成 Vi = 
Vi (Xi，&:，B) 。 然 后 ,假定 s 使 得 概率 的 闭 形 式 解 是 以 为 条 件 而 存在 ,无 条 件 
出 现 ; 


pi; 一 [Ev €;， 8B),， 0.) 7 (Ee. 0.) de, (15. 43) 


其 中 ,FE 人) 表示 € 的 密度 。 RPL 模型 是 满足 Vj; 一 Xi 二 xxi; 的 一 个 例子 ， 其 
中 , 服从 AL0, 歹 ] ,同时 经 由 随机 参数 自 变量 而 激发 出 来 。 不 过 ,还 可 引进 点 作 
为 另外 分 布 项 或 有 关 的 潜 变 量 。 其 次 ,假定 个 体 者 是 来 自 C 潜 类 型 的 一 个 ;参见 
18. 5 节 关 于 持续 期 限 模 型 的 例子 ,以 及 斯 威 特 (Swait，2003) 关 于 潜 类 型 GEV 例 


和 9 多 项 式 模型 


Em 


子 或 有 限 混合 模型 。 者 B 与 8. 通过 类 型 而 变化 , 则 式 (15. 43) 无 条 件 变 成 : 
pi 一 > | 已 eve ,Ei ,0 ) ,0° ) f(E, od, ke, (1]5. 44) 


其 中 ,x. 表示 作为 第 c 类 型 成 员 资 格 的 概率 ,而 且 典 型 地 有 c 二 2 或 c= 二 3。 于 是 ， 
MSL 估计 量 对 : 


InEL(B， 54) = 2) Din[ 二 DDR ,EE ,GD gm | 


求 极 大 值 ,其 中 ,é; 表示 从 f(&;19;) 中 得 到 的 第 * 个 采样 。 卡 马 库 兰 和 韦 德 尔 
(Kamakura and Wedel，2004) 曾 经 利用 见 叶 斯 方法 人知 计 有 限 混合 MNL 模型 。 

沃克 和 本 。 阿 基 瓦 (Walker and Ben-Akiva，2002) 将 这 类 模型 称 为 广义 随机 
效用 模型 (generalized random utility model) 。 他 们 引用 许多 文章 来 进行 此 类 推广 ， 
考虑 使 用 意 回 偏好 数据 补充 显 性 偏好 数据 (stated preference data) , 同时 提供 内 容 
充实 的 实证 说 明 。 源 自 沃克 和 本 。 阿 基 瓦 (Walker and Ben-Akiva，2002) 的 图 
15. 1 概括 出 各 种 扩展 。 





可 观测 变量 


不 可 观测 变量 


结构 关系 


扰动 i 
测量 关系 显 性 偏好 指示 器 y 


图 15.1 广义 随机 效用 模型 


多 项 式 建 模 文献 处 于 发 展 与 估计 高 度 有 结构 的 参数 模型 的 最 前 沿 ,此 参数 模 
型 并 入 了 随机 参数 .、 潜 变量 、 潜 参数 ,并 且 将 一 个 以 上 来 源 的 数据 组 合 起 来 。 这 些 
方法 可 用 于 任何 类 型 的 横 截面 数据 ,而 不 只 是 用 于 离散 结果 。 





15.8 多 项 式 probit 


一 种 可 供 选 择 的 引入 不 可 观测 成 分 中 关于 不 同 选择 具有 相关 性 且 明 显 的 方式 
是 ,以 正 态 分 布 误差 研究 。 不 过 ,很 难 进行 ML 估计 ,如 同 最 一 般 情况 一 样 ,需要 计 
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算 (m 一 1) 重 积分 。 


15. 8.1 和 多项式 probit 模型 


多 项 式 probit (MNP) 模 型 是 m 个 选择 的 多 项 式 模型 ,其 第 j 个 选择 的 效用 
为 : 


[太一 人 十 后， j=1,2,.",m (15. 45) 
其 中 ,误差 服从 联合 正 态 分 布 ,满足 : 
e ~ MI0, EE| (15. 46) 


这 里 ,mX1 维 向 量 sl 王 [Lei ,… ,Em | 。 通 和 常 V 一 1G 或 V; =~x /3, o 

各 种 不 同 MNP 模型 起 央 于 对 协 方差 矩阵 的 不 同 设 定 。 非 对 角 线 的 一 些 元 
率 钼 设 定 为 非 零 的 ,以 便 人 允许 对 不 同 误差 具有 相关 性 ,尽管 需要 对 3 施加 某 些 限 
市。 注意 到 ,如 果 误 差 是 不 相关 的 ,那么 MNP 仍 不 会 产生 概率 的 闭 形 式 解 ,然而 ， 
比较 容 多 的 是 ,假定 误差 是 极 值 的 且 运 用 CL 模型 或 MNL 模型 。 

为 了 确保 识别 (identification) ,需要 对 三 加 以 限制 。 很 明显 ,由 式 (15. 23) 知 ， 
对 于 任何 ARUM 来 说 ,选择 可 由 效用 或 误差 之 差 来 确定 。 因 而 ,将 选取 作为 基准 
选项 之 后 ,我们 考察 选项 7 的 效用 与 选项 1 的 效用 之 差 。 邦 奇 (Bunch，1991) 曾 经 
证 明 , 除 了 误差 @j 一 el 的 协 方差 矩阵 的 一 个 参数 之 外 ,全 部 是 可 识别 的 。 参 见 
15. 5. 1 市 结尾 的 讨论 。 达 到 这 种 识别 的 一 种 方法 是 正规 化 ,比如 说 @ 二 0, 然 后 对 
协 方差 元 素 限 制 成 1。 例如 , 当 m 一 2 时 , 则 设 s 二 0, 所 以 on 二 0 且 01; 二 0, 并 且 另 
外 限制 cz 1。 于 是 ,s: 一 si 一 sz ~ 人 LO ] | ,这 是 一 个 二 值 probit 模型 。 

为 了 成 功 应 用 ,需要 对 5 或 8 进行 额外 限制 。 基 思 (Keane，1992) 已 经 证 明 ， 
即使 为 了 确保 恰好 识别 而 对 误差 协 方差 做 出 一 些 假设 ,实际 上 在 含有 不 随 选项 而 
变化 的 回归 元 的 模型 中 ,MNP 模型 的 参数 可 能 是 非常 不 精确 的 估计 。 这 种 估计 不 
精确 在 性 质 上 类 似 于 线性 回归 中 回归 元 之 间 的 高 度 多 重 共 线性 。 基 恩 发 现 , 关 于 
回归 元 排除 性 约束 会 很 好 地 发 挥 作用 (对 每 个 效用 指标 具有 一 个 排除 性 约束 )。 作 
为 一 种 可 供 选 择 的 且 更 普遍 的 方式 是 ,对 协 方差 参数 施加 进一步 限制 。 

关于 误差 的 一 种 流行 而 简约 模型 是 因子 模型 [11(factor model) 


L 
ej = vi 二 Dyecné, 7 一 ,2 710 
一 ] 


其 中 9 与 避 ，…… 都 是 服从 iid 标准 正 态 的 ;Ci 表示 权重 ,cj 被 称 为 待 估 因 子 载 
集 (factor loadings) 。 该 模型 能 极 大 地 将 协 方差 参数 的 数目 从 mm 十 1)/2 减少 到 
L, 并 需要 一 个 (LL 十 1) 维 的 积分 。 对 于 小 值 来 说 ,可 运用 数值 方法 ,通常 是 高 斯 
积分 ,而 对 于 大 上 值 来 说 , 则 需要 使 用 模拟 方法 。 就 面板 数据 而 言 , 将 随机 效应 模 
型 看 成 是 含有 误差 ww 一 a; 十 6 的 因素 模型 ,而 因子 模型 尤其 适合 于 面板 probit 背 
景 下 的 情况 。 


C1] 也 称 为 因素 模型 。 一 一 译 者 注 


AH9 多 项 式 模型 


Or 


15. 8.2 多 项 式 probit 的 估计 


回归 以 及 误差 方差 参数 可 更 好 地 通过 15. 3. 2 节 给 出 的 对 数 似 然 ML 来 进行 
估计 。 其 挑战 是 ,选择 概率 的 表达 式 并 不 存在 闭 形式 解 。 
对 于 三 种 选择 MNP 模型 来 说 ,有 : 


一 六 
pi 一 Pr| y 一 ] | 一 | f (E21 E31 J dE 2 dE 3 


| 参见 式 (15. 24) |, 其 中 , f(é21 631) 表示 具有 两 个 自由 二 变量 正 态 的 协 方差 参数 ， 
而 Va 与 Vai 均 依赖 于 回归 元 与 参数 B。 这 个 二 变量 正 态 积分 能 在 数值 形式 上 迅速 
地 计算 出 来 。 然 而 ,更 一 般 地 ,ma 个 选择 的 模型 需要 数值 计算 (m 一 1 个 变量 积分 。 
将 标准 数值 积分 方法 限定 在 四 种 选择 MNP 模型 上 ,三 变量 正 态 积分 变 成 数值 方 
法 的 极限 。 

对 于 较 大 的 模型 来 说 ,一 种 可 供 选 择 的 方法 是 使 用 模拟 方法 。 为 了 简单 起 见 ， 
我 们 涉及 三 种 选择 的 MNP 模型 。 一 种 可 能 性 是 使 用 频率 模拟 器 , 即 通过 对 小 于 
(一 Vai， 一 V3) 的 抽取 (éz1 ,8&1 ) 的 部 分 来 逼近 如。 由 12. 7. 1 节 知 ,这 一 模拟 器 不 
是 光滑 的 ,并 且 它 可 以 是 非常 无 效 的 (参见 12. 7.2 市 )。 进 一 步 地 ,在 当前 背景 下 ， 
可 能 情况 是 , 它 会 得 到 pl 一 0 或 1 的 边界 值 。 通 常 来 说 ,一 种 较 好 方式 是 运用 重要 
抽样 ,详细 内 容 由 12. 7. 2 节 闸 述 。 就 多 变量 正 态 区 域 上 进行 蒙特 卡 罗 积 分 而 言 ， 
一 种 极为 流行 的 重要 抽样 器 是 GHK 模拟 器 ,该 方法 归功 于 格 韦 克 (Grweke， 
1992) , 哈 吉 巨 西 柳 和 寿 克 法 登 (Hajivassiliou and McFadden，1994), 以 及 基因 
(了 Keane，1994) 。 这 会 递 推 地 截取 多 弯 量 正 态 pdf。 和 频率 模拟 竟 相 比 , 它 是 光 背 
的 ,对 于 选项 需要 较 少 的 以 小 概率 进行 的 抽取 ,同时 不 可 能 具有 边界 问题 。 特 备 恩 
(Train，2003) 对 该 方法 提供 了 详细 解释 。 

前 面 讨 论 考察 了 ,假定 知道 8 与 来 计算 MNP 概率 的 问题 。 实 际 上 ,我 们 需 
要 估计 6 与。 模拟 极 大 似 然 估 计量 (maximom simulated likelihood estimator) 极 
大 化 : 


N 好 
jn Ln (8, 2,) 一 > > yi ln Ps 


;一 ] j=] 


其 中 ,z 表示 利用 GHK 或 其 他 估计 量 而 获得 的 。 一 致 性 要 求 模拟 顺 中 的 采样 数 
量 S 一 co 以 及 N 一 ce 。 该 方法 显得 相当 累 米 。 在 迭代 进行 第 r 次 时 (参见 第 10 
章 ) ,估计 值 是 B" 与 3"? ,同时 更 新 需要 重新 计算 Pi ,这 要 求 对 N 个 个 体 中 的 每 
一 个 都 要 进行 S 个 采样 。 

一 种 可 供 选 择 的 估计 方法 是 模拟 算 方 法 (method of simulated moments) (参见 
12. 5 节 )。 由 式 (15. 8) 知 ,一 致 算 方 法 估计 量 是 >; 2”%1(Cyi 一 pi)z; 二 0 的 解 ,其 
中 ,例如 zz 二 x;。 相 对 应 的 8 与 MSM 佑 计量 是 佑 计 方 程 


N nn 
2 2 — Pi)z=0 


的 解 ,其 中 ) Pi 是 利用 无 但 模 拟 需 获得 的 。 于 是 ， (yi — p;; )Z; 关于 (yi — pi ) Zi 是 
无 仿 的 ,因此 ,即使 S 王 1, 也 可 能 是 一 致 佑 计 的 。 这 大 大 简化 了 计算 。 不 过 , 吏 小 3 
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而 言 , 有 效 性 出 现 损失 , 而且 甚至 对 大 S 而 言 ,与 MSL 相 比 ,MSM 有 效 性 更 差 一 
些 , 因 为 在 本 例 中 , 甜 方法 的 有 效 性 比 ML 的 要 差 一 些 。 与 MSL 同样 有 效 的 极 少 
运用 的 方法 是 模拟 得 分 方法 (method of simulated scores)[ 参 见 哈 吉 瓦 西柳 和 麦克 
法 登 (Hajivassiliou and McFadden，1998) ]。 

一 种 可 供 选 择 的 估计 量 是 运用 贝 叶 斯 方法 。 与 RPL 不 同 , 概 率 不 存在 闭 形式 
解 , 这 和 需要 从 效用 中 推 时 出 来 。 引 进 潜 效用 Ui 二 (UU;,…,U;) 作为 辅助 变量 ,并 
运用 数据 增 广 方法 (参见 13. 7 节 )。 若 令 二 (Ui,…,UN) 且 yy 二 (yj,…, yw), 我 们 
会 使 得 吉 布 斯 抽样 器 在 :(1) 关于 81y,U,z 的 条 件 后 验 ;(2) 关于 iy,B8,U 的 条 
件 后 验 ;(3) 关于 U; 1y,B8,53 的 后 验 之 间 进 行 循环 。 共 伯 特 和 奇 布 提供 凤 有 无 序 多 
项 式 模型 ,又 有 有 序 多 项 式 模 型 的 相当 一 般 的 研究 。 麦 卡 洛 克 和 罗 西 (McCulloch 
and Rossi，1994) 曾 提供 了 内 容 丰 富 的 MNP 应 用 。 奇 布 (Chib，2001) 已 经 讨论 过 
为 了 识别 需要 利用 Z 约束 的 复杂 情况 (参见 15. 8. 1 节 )。 


15. 8.3 讨论 


MNP 模型 既 缺 乏 p; 的 闭 形式 解 ,RPL 模型 也 缺乏 B; 的 闭 形式 解 。 不 过 ,就 
RPL 而 言 , 至 少 存在 以 6; 为 条 件 的 财 形式 解 , 且 唯 一 问题 是 通过 积分 去 掉 6;。 对 
于 MNP 模型 来 说 , 它 在 时 间 上 先 于 RPL 模型 ,尤其 是 当 加 接近 于 0 或 1 时 ,没有 
此 类 条 件 结 采 而 且 有 逼近 加 则 是 更 富有 挑战 性 的 。 看 起 来 ,通过 人 能 套 logit、RPL 或 
混合 模型 而 不 是 使 用 MNP, 更 容易 获得 模型 灵活 性 。 


15.9 有 序 、 序 列 和 分 级 结果 


在 本 节 ,我们 阐述 比 无 序 模型 更 具有 结构 性 的 模型 ,诸如 那些 含有 自然 顺序 的 
选项 或 者 依次 次 策 的 模型 。 当 很 容易 建立 起 合适 模型 时 ,可 直接 进行 分 析 , 而 且 再 
次 利用 建立 在 式 (15.4) 上 的 MLE 加 以 估计 ,各 种 不 同 的 模型 会 导致 对 概率 p;; 的 
不 同 设 定 。 


15. 9. 1 有 序 多 项 式 模型 


假定 选项 存在 一 种 自然 顺序 。 例 如 ,健康 自我 评价 状况 可 以 是 极 好 、 良 好 ,一 
般 或 不 好 。 这 类 数据 能 通过 无 序 多 项 式 模型 估计 ,但 更 为 简约 的 模型 以 及 切合 实 
际 的 模型 是 要 将 这 种 顺序 考虑 进去 的 。 

起 点 是 含有 单个 潜 变量 的 指标 模型 : 

天 一 XiG 十 u (15. 47) 


其 中 ,x 并 不 包括 鹤 距 ,这 违背 了 14. 4. 1 市 内 容 。 由 于 y 器 越 一 系列 递增 的 未 和 央 
门限 值 ,我们 就 往 上 移动 选项 的 次 序 。 例 如 ,对 于 非常 小 的 y* ,健康 状况 是 不 好 
的 ;对 于 y 六 ai ,健康 状况 改进 到 一 般 ; 对 于 y >as ,健康 进一步 改善 到 良好 等 。 
通常 ,就 m 个 选项 的 有 序 模型 而 言 ,定义 : 
当 ;1 二 yy; 委 aj 时 ， 六 一 / 《15. 48) 


9 多 项 式 模型 


其 中 ao 一 一 co 以 及 ov 一 co, 于 是 : 
PrLy 一 门 二 Prlo 1<y; <a;] 

一 PrLa <x;B ua | 

一 PrLa 一 上 5 一 wo 一 xD (15. 49) 

一 站 (ai 一 Xi ) F(a 一 XG ) 
其 中 ,下 表示 2 的 cdf。 回 归 参 数 8 与 (m 一 了 个 门限 参数 ao ,…,a。-1 均 可 通过 对 
含有 式 (15. 49) 定 义 的 p;; 对 数 似 然 (15. 5) 求 极 大 值 而 获得 。 对 于 有 序 logit 模型 
(order logit model) 来 说 ,x 表示 满足 下 (z) 王 er 十 ez) 的 逻辑 斯 蒂 人 分布。 对 于 有 
序 probit 模型 (order probit model) 来 说 ,* 表示 标准 正 态 分 布 , 而 且 F(*) 表 示 标 准 
正 态 的 cdf。 令 天 表示 把 截 距 排除 在 外 的 回归 元 数量 ,mm 个 选项 的 有 订 模 型 具有 
KK 十 m 一 1 个 参数 ,而 MNL 模型 则 具有 (mm 一 1) (天 十 1) 个 参数 。 

对 回归 参数 B 的 符号 ,可 立刻 解释 成 确定 潜 变 量 y* 是 否 随 回归 元 而 增 大 。 就 
概率 边际 效应 而 言 ,有 : 

EPE (Fa, 1—xB)—F (wxB)}B 
其 中 ,下 表示 的 导数 。 括 号 中 的 项 可 正 可 负 。 

这 种 模型 还 能 用 于 仅 取 几 个 值 的 计数 数据 。 卡 梅 化 和 特 里 维 迪 (Cameron and 
Trivedi，1986) 将 有 序 probit 模型 用 于 医生 会 诊 次 数 。 豪 斯 曼 、 洛 和 麦 金 利 
(Hausman，Lo，and MacKinley，1992) 则 把 有 序 probit 用 于 计数 变动 数据 ,这 可 
以 是 负 的 ,此 外 ,可 将 误差 项 u; 建 模 成 异 方差 的 。 


15.9.2 序列 多 项 式 模 型 


在 一 些 情况 下 ,决策 要 求 序 贯 做 出 。 例 如 ,人 们 首先 决定 是 否 去 上 大 学 。 如 果 
选择 不 上 大 学 ,那么 y 王 1。 如果 y 关 1, 那 么 决定 是 否 上 两 年 制 大 学 (y= 二 2) 或 四 年 
制 大 学 (> 一 3)。 给 定 此 序列 的 设 定 ,很 容易 获得 其 概率 。 例 如 ,对 第 一 次 决策 通过 
probit 模型 来 建 模 ,并 有 旦 如 果 有 意义 ,对 第 二 次 决策 仍 通过 probit 建 模 。 于 是 ， 
Pr[ y= 二 1] 一 B(xi1[B1) 以 及 Pr[y= 二 2|y 隆 1] 一 (xz Bl)。 其 无 条 件 概率 是 : 


Pr[y=2]==Pr[y=2|y1]XPr[ yl1|]=@®@(x; 8;)(1— B(x 81)) 


参数 B81 与 8, 可 通过 对 数 似 然 函数 (15. 5) 求 极 大 值 而 估计 出 来 ,其 中 , pi; 一 
(xu ,pz 已 由 前 面 方 程 给 出 ,而 psi=1— pi pzio 

这 种 方法 依赖 于 对 做 出 决策 序列 进行 正确 设 定 。 就 此 选择 例子 而 言 , 一 个 较 
好 的 模型 是 三 种 选择 角 套 的 logit 模型 ,其 中 上 两 年 制 大 学 效用 的 误差 是 独立 的 。 
利用 由 8. 5 节 给 出 的 基于 似 然 方法 ,可 对 这 些 模型 加 以 比较 。 


1S. 9. 3 分 级 数据 模型 


因而 ,对 于 假定 选项 是 不 相 容 的 且 唯 一 选项 被 选取 的 模型 已 经 进行 了 讨论 。 
更 一 般 地 ,选项 是 分 等 级 的 ,尤其 是 还 有 意向 偏好 数据 的 情形 。 例 如 ,已 知 第 一 个 
选项 和 第 二 个 选项 。 
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本 


可 直接 进行 估计 分 级 有 序 logit 模型 (rank-ordered logit model) | 参见 贝 格 斯 、 
卡 德尔 和 袁 斯 曼 (Beggs，Cardell，and Hausman，1981)]。 考 察 四 个 选项 条 件 
logit 模型 ,其 具有 选项 2 作为 第 一 种 选择 ,而 具有 选项 3 作为 第 二 种 选择 。 选 项 2 
是 从 所 有 四 个 选项 中 选取 的 ,然后 选项 3 从 剩余 的 选项 1 .选项 3 .选项 4 这 三 个 选 
项 中 选取 。 第 一 种 选择 与 第 二 种 选择 的 联合 概率 是 : 
exi2 人 3 


e*18+- ex 2 十 ee 13 十 ex 5 ex10 十 es36 十 es40 


给 定 关 于 其 他 11 个 联合 概率 的 类 似 表达 式 , 可 通过 ML 进行 估计 。 

对 于 多 项 式 probit 模型 来 说 ,不 存在 类 似 简 化 。 哈 吉 瓦 西柳 和 和 鲁 德 (Hajivas- 
siliou and Ruud，19947 曾 前 述 了 模拟 联合 概率 的 方法 。 他 们 运用 分 级 有 序 probit 
模型 (rank-ordered probit model) 简明 各 种 基于 模拟 的 估计 量 。 


15. 10 ”多 变量 离散 结果 


前 面 一 些 模型 , 除 分 级 有 序 模 型 之 外 ,都 是 单一 离散 因 变 量 在 个 互 不 相交 
值 中 取 一 个 。 现 在 ,我 们 考察 存在 一 个 以 上 离散 结果 的 模型 。 对 数 似 然 函数 类 似 
于 多 项 式 模型 (15. 5), 只 是 各 种 不 同 模型 对 应 于 概率 不 同 的 函数 形式 。 为 了 解释 
两 个 结果 之 间 的 相关 以 及 可 能 的 联 立 性 ,需要 这 些 概率 。 


1S. 10.1 二 变量 巨 散 结果 


为 了 简单 起 见 , 考 察 二 变量 离散 数据 (bivariate discrete data) (yi;, yz;)。 例 如 ， 
在 区 动力 供给 与 生育 率 的 联合 模型 中 ,关于 个 体 : 的 因 变量 (yy ,yz ) 可 能 是 若 工作 
则 ya 三 2, 春 不 工作 则 yi 一 1; 若 有 小 孩 则 yz 二 2, 若 没有 小 孩 则 yz 二 1。 

更 一 般 地 讲 , yi 可 取 值 1,…,mi， 而 yy 可取 值 1,…,ms。 对 于 个 体 i 来 说 ， 
定义 : 

pi —=Pr| yy 一 1 yz; =~=kj， 了 7 一] 71， 大 一 |] ,72 (15, 50) 

注意 到 , 力 尖 定义 了 互 不 相交 事件 的 概率 ,并 且 >， Dp i 二 ]。 定义 m1 Xm2 对 应 于 
二 值 指 示 变 量 , 若 (yi 二 j， y2 一); 则 yi 二 1, 否 则 yx 二 0。 于 是 ,第 i 个 观测 值 的 
联合 密度 是 : 


f (ys, Y2i) 一 II 


从 而 ,对 数 似 然 是 盖 | 乙 扣 | 2721 ywk ln px 并 如 同 15. 4. 2 节 一 样 ,通过 ML 加 以 
估计 。 

在 多 变量 模型 与 多 项 式 模型 之 间 ,其 本 质 差别 在 于 对 概率 函数 形式 的 设 定 上 。 

在 最 简单 情况 下 ,两 个 离散 因 变 量 是 独立 的 , 且 Pijk 一 PrLyn 7X Pr ys 一 kj。 
于 是 ,yi 与 yz 能 利用 各 自 的 多 项 式 模型 加 以 建 模 。 

不 过 , 当 将 两 个 变量 看 成 是 相互 联系 的 ,一 种 简单 方法 是 使 用 概率 pi 的 多 项 
式 logit 模型 。 从 而 ,本 质 上 可 将 二 变量 结果 (yi，, yz) 看 成 mr X mz 个 单 变 量 结果 ， 
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OM 


例如 ,在 劳动 力 供给 与 生育 率 的 例子 中 ,四 种 结果 之 一 就 是 工作 与 有 小 孩 。 
在 下 一 让 ,考察 这 两 种 极端 之 间 的 模型 ， 


15. 10.2 ”二 变量 probit 


本 变量 probit 模型 是 关于 两 个 二 值 结果 的 联合 模型 , 它 可 推广 到 从 一 个 潜 变 
量 到 两 个 可 能 相关 的 潜 变 量 的 指标 也 数 形式 (参见 14. 4. 1 节 )。 
定义 不 可 观测 的 潜 变 量 : 
y’ =x 十 el (15. 51) 
ya 一 X2 ep 十 Es: 


其 中 ,E1 村 ez 服从 联合 正 态 分 布 , 其 均值 为 0, 方 差 为 1, 且 相关 系数 为 Oo 对 于 二 
变量 probit 模型 (bivariate probit model) , 设 定 观 测 结 果 为 : 


2， 当 yr >0 
”I 1， 当 y? 志 0 


当 Y> >0 
2 : 
] ， 当 TV 0 


其 中 ,我 们 使 用 (2,1) 值 而 不 是 (1,0) 值 ,这 与 本 章 记 号 一 致 。 当 误差 相关 系数 
po 二 0 时 ,该 模型 就 会 变 成 关于 yi 与 yz 的 两 个 单独 probit 模型 。 
当 po 和 0 时 ,概率 不 存在 闭 形式 解 。 例 如 : 


pzz = Prliy = 2, y2 = 2 
一 Pr| yi 全 0，ya 一 0 
一 Pr| 一 si < 二 x1 0 9 EE? < X20 | 
一 Pr| s， < X11 ，E2 < xz 32 | 
x [xf 
一 | (zi 之 2 9 odz1dz? 


= B(x1B1, X22, p) 


其 中 ,$(zi ,zz ,0) 与 四 (zi ,zz ,0p) 分 别 表示 标准 化 二 变量 正 态 密度 与 关于 (zi ,zi ) 的 
cdf ,具有 和 零 均 什 .单位 方差 以 及 相关 系数 o, 同 时 对 于 有 具有 等 均值 的 二 变量 正 态 分 
布 来 说 ,第 四 个 等 式 成 立 。 

就 其 他 可 能 结果 而 言 , 经 过 类 似 代 数 运算 ,得 到 ， 


px =Pr| yi=j), y=—k| 
=@P(gixi 1, qx B2, 0) 


其 中 , 当 y= 二 2 时 ,gq/ 一 1; 当 yy 二 1 时 ,gq/ 二 一 1, 这 里 /二 1,2。 这 是 ML 估计 的 基 
础 ,对 此 格林 (Greene，2003) 曾 经 详细 阐述 过 ,他 还 考察 了 边际 效应 计算 。 

具体 实施 需要 对 二 变量 正 态 积分 进行 计算 ,这 样 做 在 数值 形式 上 是 可 行 的 。 
尽管 由 于 存在 较 高 阶 积分 ,过 到 数值 计算 上 的 挑战 ,但 对 多 变量 probit 的 推广 是 显 
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而 多 见 的 。 如 有 果 每 一 个 结果 都 是 有 序 的 ,那么 此 模型 能 被 推广 到 二 变量 有 序 probit 
模型 (bivariate ordered probit model) 。 

人 们 还 可 考察 推广 式 (15. 5) 的 联 立方 程 probit 模型 ,以 使 右边 变量 成 为 内 生 
的 ,例如 ,关于 入 的 第 一 个 方程 包括 y2 ,同时 (或 者 )y 作为 回归 元 ,而 且 关 于 y: 
可 做 出 类 似 讨论 ,只 是 为 了 确保 模型 是 可 识别 的 而 需要 某 些 约束 。 这 种 模型 类 似 
于 16. 8. 2 节 将 要 讨论 的 联 立 方程 Tobit 模型 。 


15. 11 半 参 数 估 计 


某 些 研究 可 推广 到 为 了 对 无 序 多 项 式 数 据 进 行 建 模 的 半 参 数 估计 方法 上 。 阿 
贝 (Abe,，1999) 曾 经 估计 下 述 logit 模型 , 即 用 其 他 模型 形式 > ,8,f, xis) 代替 式 
(15.10) 中 的 xjB ,其 中 ,p 表示 xi 的 第 p 个 分 量 ,而 函数 f,(*) 是 通过 数据 估计 
出 。 李 龙 飞 (L-F. Lee，1995) 将 克 革 因 和 斯 帕 迪 (Klein and Spady，1993) 的 源 自 
二 值 结果 的 估计 量 ( 参 见 14. 7 节 ) 推 广 到 多 项 式 结果 。 多 重 指标 模型 的 半 参 数 方 
法 , 间 样 可 应 用 于 多 项 式 无 序 模型 。 其 挑战 是 确保 预测 概率 位 于 0 与 1 之 间 和 且 和 
为 1。 

有 序 模型 可 以 很 好 地 协助 半 参 数 分 析 , 因为 它们 涉及 跨越 一 系列 门限 的 指标 
x。 例 如 ,参见 克 菜 因 和 含 曼 (Klein and Sherman，2002) ,他们 在 误差 与 回归 元 
是 独立 的 假设 下 ,前 述 作为 既 关 于 回归 又 关于 至 位 置 及 标 度 的 门限 点 的 VN 一 致 
且 服 从 渐 近 正 态 的 估计 量 ， 


15.12 MNL、CL 以 及 NL 模型 推导 


我 们 考察 条 件 logit 模型 和 多 项 式 logit 模型 ,推导 对 数 似 然 函 数 的 -一 阶 导数 
与 二 阶 导数 ,以 及 回归 元 变化 对 概率 效应 的 表达 式 。 然 后 ,从 GEYV 模型 推导 内 套 
logit (NL) 模 型。 


15. 12.1 条 他 logit 
条 件 logit 概率 是 p ;= 二 ew3/ew#。 运 用 分 部 微分 ,得 出 ， 


dps 2 一 ex ee 2 
IC De*a wl ( 21eruB)? 2 “ Xa 


piyXij; pi > pixXi pi Xi — pi; Ri pi; (Xi — xX;) 
i 





其 中 ,%; 二 2/Ppixi。 于 是 
-DE ps Dy — 
由 此 可 得 : 
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| 


四 9 
和 2 9 58 


有 5 Xi 

四 2 2 i 98 | 

一 一 5 Sy > pu (xa — ¥; ) Xi 

i ! 

一 一 2 2 Py (x 一 买 ; )X 

-一 一 一 2 2 ps (Xi — ¥;) (CX; — XX:) 
它 就 是 式 (15. 15) 。 倒 数 第 二 个 等 式 运 用 了 下 面 事 实 : 对 于 恰好 一 个 选择 来 说 ,ya 
等 于 1 ,否则 Vi 为 0， 因此 2 ;yi 2 1a 一 2 > 一 Za si 9 同时 最 后 一 个 等 式 运 
用 22;p; (Xi; — 祥 ; )X; 一 2 ; Cp; X;; pi; ¥, )X; 一 之 1 (xX; — pi; Xi) 一 0， 因为 2;p; 一 

现在 ,考察 回归 元 变化 的 将 应 。 对 于 条 件 logit 模型 来 说 ,有 : 


Op,; exijiB ex , 
opy _ yom CT me 0 一 万; (1—p; ) 


心 





不 过 , 当 7 天 上 时 ,有 : 


9 力 ;， 人 x 


re (CT emie™ Bpspab 
对 上 述 两 个 结果 组 合 ,得 到 式 (15. 18)。 
15. 12. 2 多项式 logit 
多 项 式 logit 概率 是 pi 一 e*3 /如 ie*4 。 通 过 分 部 微分 得 到 : 


9 dpi | pxiB exib 





oF Sea (Be*a)2" 和 
不 过 ,对 于 有 了 ) ,有 : 
9p; _ et x — 
Be we Pupuw 
对 上 述 式 子 组 合 , 得 出 : 
2b 一》 


Br OpsxX Popiax— ps (Ot ™— Pi IX 
其 中 ,指示 变量 | 
所 -ps pi 也 
一 2 2 pe up -一 pipikXi) 
本 2 2 yi — ypin |x 
= 2 [yi 一 pi x 
如 同 式 (15. 16) 所 表述 的 ,其 中 最 后 一 行 运用 了 6 的 定义 以 及 ;yi 二 1。 对 于 二 
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阶 导数 来 说 ,得 出 : 
jg 93 务 : = 加 2 >) 5 I | 2 2 ps CBie 一 pir )XiX: 


从 而 ,得 到 式 (15. 17) 。 
当 回 归 元 变化 时 ,有 : 


qd ps ex ex , 
i A — S ， x 
+ - ’ 1 
OX, 5 (> esa)? ; 以 





=pspB;— ps 2 piBi= ps(B;— Bi) 
其 中 ,B, 二 了 ,piB,, 正 如 式 (15. 19) 所 表述 的 。 
15. 12.3 髋 套 logit 
考察 由 式 (15. 32) 与 式 (15. 33) 给 出 的 两 水 平 GEV 模型 ,满足 : 
GOY) = GOT Yi Yh ) 一 六 (yy )® 


由 于 系数 a; 的 缘故 ,这 是 式 (15. 34) 的 推广 。 一 般 性 GEV 结果 (15. 31) 变 成 。 
Pr[ yx 二 1 二 YaxGan/G(Y), 其 中 ,Gi 表示 GC(Y) 关 于 Yi; 的 导数 且 在 Yi 一 evn 处 
计算 。 


现在 ,有 : 
G， = = a,( 5 yy )6 xX YY 
从 而 ,得 出 : 
Yi Gn = a (TY) x Yb 
于 是 : 


GOCY) Sn an i yp) 这 
选取 梳 ; 的 概率 ,在 经 过 某 些 简化 之 后 ,得 出 ， 


上 a; (D7 1 Yj D8 
p= Sp = 
kp—1 2 am CL YY fm )Pm 


而 给 定 校 ;j 选取 分 文 & 的 条 件 概率 是 : 
pie _ Yi 
p; SK Yi 
此 处 结果 ,也 是 由 马达 拉 (Maddala，1983 ,第 72 页 ) 给 出 的 。 
我 们 需要 在 Yi 一 exp(Vx ) 处 计算 这 些 表达 式 。 假 定 : 
Vi = oa xp 


Pi — 


Pr; 
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(e 7) 一 exp(Zia /p; ) exp (XB; /0;) 
K) 
> (ez )25 一 exp(Za /oj )expl 1;) 
!=! 
K 


( >， (e 0)14 ) 一 exp(Za 二 ol;) 
t=]1 
其 中 : 


RK 
1; = In( >， exp(xXiB;/p;) ) 
[=] 
由 此 可 得 ,选取 枝 7 的 概率 变 成 ， 
OC OO 
2 ia ( Dy (@ mi! ) /Pm ) Pm 
a;exp(z;a 十 oT;) 


pi; 一 


7 5/ ian (exp(zsa tol,)) 
这 是 如 同 式 (15. 36) 第 一 项 表述 的 。 注 意 到 ,由 于 aexp(za 十 pjJ1;) 二 exp(ln a 十 
za 十 o;1;) ,所 以 纯 量 a; 能 被 并 入 z 之 中 作为 特定 枝 虚拟 变量 。 因 此 ,为 了 不 失 
一 般 性 , 设 a; 二 1。 
位 于 枝 ; 内 分 支 & 的 概率 是 : 

(e i ) 
_ exp(wa /0;)exp xnB/p) 

Dt exp (Za /po;) (x /op;) 
__ exp(%p,/p;) 


Dit1exp (XB /p;) 
这 是 如 同 式 (15. 36) 第 二 项 表述 的 。 


15. 13 ”应 用 研究 


多 项 式 logit 模型 适用 于 描述 数据 或 估计 边缘 概率 ,但 因为 独立 于 无 闫 选项 假 
这 ,如 采 需 要 参数 的 更 多 结构 性 解释 , 它 被 认为 是 一 个 不 好 的 模型 。 许 多 软件 包 都 
有 和 多项式 logit 模型 估计 。 

运用 STATA 可 估计 髋 套 logit 模型 ,并 运用 依附 于 LIMDEP 的 NLOGIT, 而 
且 很 容 多 用 诸如 GAUSS 语言 编程 。 若 存在 明显 的 艇 套 结构 ,就 可 使 用 这 一 模型 ， 
但 通常 不 存在 明显 结构 时 。 

随机 参数 logit 模型 要 求 用 诸如 GAUSS 语言 来 特别 编程 ,并 需要 运用 第 12 
章 给 出 的 基于 模拟 的 估计 方法 。 肯 “。 特 雷 恩 (Ken Train) 在 他 的 网 站 上 提供 了 这 
方面 的 程序 。 

对 于 以 上 四 种 选择 来 说 ,估计 多 项 式 probit 模型 更 会 遇 到 挑战 ,而 且 相 对 而 


Palj; 一 


微观 经 济 计量 学 


PM 


言 ,在 实证 研究 上 获得 成 功 的 极 少 。 鉴 于 上 述 原因 ,目前 人 们 更 偏爱 随机 参数 logit 
模型 。 


15. 14 文献 注释 


15.3 关于 多 项 式 模型 的 优秀 参考 书包 括 雨 官 (Amemiya，1981,1985) ,马达 
拉 (Maddala，1983) 以 及 格林 (Greene，2003)。 本 ，。 阿 基 瓦 和 芋 尔 曼 (Ben-Akiva 
and Lerman，1985)、 特 雷 因 (CTrain，1986) 以 及 伯 尔 施 一 祖 潘 (Borsch-Supan,， 
1987) 者 提供 了 广泛 应 用 及 理论 综述 。 特 雷 恩 (Train，2003) 对 无 序 多 项 式 模型 与 
利用 模拟 方法 的 估计 问题 提供 了 优秀 研究 。 

15.5 ”麦克 法 登 (McFadden，1981) 的 原创 性 文章 ,提供 了 离散 选择 建 模 的 高 
等 研究 ,并 强调 随机 效用 模型 方法 。 对 于 福利 分 析 , 参 见 斯 莫 尔 和 罗 森 (Small and 
Rosen，1981) . 特 雷 恩 (CTrain，2003 ,第 59 一 61 页 ) 以 及 达 格 斯 文科 和 卡尔 斯 特 罗 
姆 (Dagsvik and Karstr56om，2004)，。 

15.6 伯 尔 施 一 祖 潘 (Borsch-Supan，1987) 对 贝 套 logit 模型 给 出 一 个 极 好 的 
解释 及 应 用 。 

15.7 特 雷 恩 (Train，2003) 的 书 还 涵盖 随机 参数 logit 模型 以 及 其 他 一 些 最 
新 进展 。 雷 维尔 特 和 特 雷 恩 (Revelt and Train，1998) 给 出 了 一 个 早期 应 用 。 

15.8 博 尔 达 克 (Bolduc，1999) 给 出 了 一 个 9 种 选择 多 项 式 probit 模型 的 
MSL 估计 。 


习题 


15-1 考察 由 y 一 xXG 十 es 建立 的 潜 变 量 , 其 中 s 一 WEL0, 1]。 假 定 当 y* <a 
时 , 观 调 到 y= 二 2; 当 ec 和 y <U 时 ,观测 到 > 一 1; 同 时 当 y 宇 U 时 ,观测 到 y 王 0, 其 
中 对 每 个 个 体 而 言 , 上 限 上 是 已 知 常数 ( 即 数据 ), 并 且 对 于 不 同 个 体 来 说 可 能 是 
不 同 的 ,不 过 a 是 未 知 的 。 

(a) 求 y 二 0、y 二 1 以 及 y= 二 2 的 条 件 概 率 。 

(b) 提供 一 致 估计 6 与 a 方法 的 详细 内 容 。 

15-2 使 用 15.2 节 的 钓鱼 方式 选择 数据 的 50%% 子 样本 。 

(a) 估计 15. 2. 1 节 的 条 件 logit 模型 。 

(b) 评论 参数 估计 和 值 的 统计 显著 性 。 

(c) 各 种 钓鱼 方式 价格 上 涨 的 效应 是 多 少 ? 

15 -3 使 用 15. 2 节 的 钓鱼 方式 选择 数据 的 50% 子 样本 。 

(a) 估计 15. 2. 2 节 的 多 项 式 logit 模型 。 

(b) 评论 参数 估计 值 的 统计 显著 性 。 

(c) 各 种 钓鱼 方式 价格 上 涨 的 效应 是 多 少 ? 

1S-4 使 用 15.2 节 的 钓鱼 方式 选择 数据 的 50% 子 样本 。 假 定 我 们 将 该 模型 
合并 成 有 三 种 选项 的 模型 ,同时 对 选项 加 以 排序 , 若 从 码头 或 岸 边 钓 鱼 , 则 > 一 0; 
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各 从 私家 船 钓 鱼 , 则 y 二 1; 而 车 租 船 钓 鱼 , 则 > 一 2。 
(a) 估计 以 收入 作为 唯一 回归 元 的 有 序 logit 模型 。 
(b) 对 估计 系数 给 出 解释 。 
(c) 把 这 个 模型 的 拟 合 与 以 收入 作为 回归 元 的 三 种 选择 多 项 式 模 型 的 拟 合 加 
以 比较 。 
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16.1 引 论 


在 本 章 ,我 们 考察 两 个 密切 关联 的 专题 :其 一 ,关注 的 因 变 量 是 不 完全 观测 的 
(incompletely observed) 回归 ;其 二 , 因 变 量 是 完全 观测 的 ,但 观测 上 却 处 于 并 不 代 
表 总 体 的 选择 样本 (selected sample) 的 回归 。 这 包括 受 限 因 变量 、 潜 变量 ,广义 模 
型 以 及 选择 模型 。 

其 至 在 最 简单 的 总 体 条 件 均 值 关 于 回归 元 为 线性 时 ,所 有 这 些 模型 均 享有 共 
同 的 特征 ,OLS 回归 导致 非 一 致 参数 估计 ,原因 在 于 样本 不 是 总 体 的 代表 。 一 
可 供 选 择 的 估计 方法 大 部 分 均 依 赖 于 强 分 布 假设 ,它们 必须 确保 一 致 佑 计 参 数 。 

引起 不 完全 观测 数据 的 一 些 重要 原因 是 :和 截 尾 与 删 失 。 对 于 截 尾 数据 5153 
(truncated data) 来 说 , 既 有 因 变 量 中 某 些 观测 值 的 损失 ,又 有 回归 元 某 些 观 测 值 的 
损失 。 例 如 ,收入 可 能 是 因 变 量 ,而 仅 有 低 收 入 人 员 被 包括 在 样本 中 。 对 于 删 失 数 
据 (censored data) 来 说 , 因 变 量 信息 会 损失 ,但 回归 元 数据 却 没 有 ,例如 ,所 有 收入 
水 平 的 人 员 都 可 能 被 包括 在 样本 中 ,但 为 了 保密 ,高 收入 人 员 的 收入 从 上 端 进 行 编 
码 , 间 时 只 报告 大 于 它 的 信息 ,比如 说 每 千 100 000 美元 。 与 删 失 情况 相 比 , 截 尾 遭 
受 更 多 信息 损失 。 截 尾 与 删 失 的 一 个 重要 例子 是 Tobit 模型 , 它 是 以 托 宾 (Tobin， 
1958) 命 名 的 , 托 宾 在 正 态 性 下 考察 了 线性 回归 。 对 于 后 面 引进 的 其 他 模型 的 截 尾 
与 删 失 ,会 产生 类 似 的 问题 ,最 著名 的 是 第 17 章 阐 述 的 删 失 持续 期 限 数 据 。 更 一 
般 地 , 截 尾 与 删 失 均 是 第 27 章 将 要 研究 的 缺失 数据 问题 的 例子 。 

第 一 代 佑 计 方 法 需要 强 分 布 假设 。 当 假定 同方 差 误 差 时 ,其 至 看 似 稍 微 违背 
假设 ,诸如 异 方差 误差 ,都 能 导致 非 一 致 的 参数 估计 。 由 于 这 种 原因 ,本 章 所 阐述 
的 模型 提供 了 半 参 数 回 归 方 法 的 经 济 计 量 学 应 用 。 对 于 删 失 与 截 尾 的 简单 形式 ， 
比如 上 端 编码 来 说 , 半 参 数 方 法 得 到 了 成 功 应 用 。 不 过 ,对 于 含有 关于 不 可 观测 因 
素 进 行 选择 的 更 一 般 模 型 来 说 ,到 目前 为 止 ,还 没有 被 广泛 接受 的 方法 。 

16. 2 节 阅 述 删 失 与 截 尾 的 非 线 性 回归 模型 的 一 般 理 论 , 而 16. 3 市 对 Tobit 模 
型 进行 专门 研究 。 删 失 数 据 的 一 种 可 供 选择 模型 是 两 部 分 模型 ,这 在 16. 4 节 加 以 


[1 又 称 为 截断 数据 。 一 一 详 背 注 
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于 


阐述 。16. 5 节 前 述 样本 选择 模型 。16. 6 节 关 于 健康 消费 支出 的 应 用 讨论 ,与 两 部 
分 模型 及 样本 选择 模型 形成 了 对 比 。 不 可 观测 的 反 事 实 框 架 的 罗 伊 模型 将 在 
16.7 才 曾 述 。16. 8 节 考 察 完全 结构 模型 ,这 可 通过 含有 角 点 解 的 效用 最 大 化 ,或 
通过 把 联 立 方程 模型 扩展 到 选择 样本 上 而 获得 。 


16.2 删 失 模型 与 截 尾 模型 


我 们 阐述 , 当 数 据 是 删 失 或 截 尾 的 时 候 , 对 完全 参数 模型 进行 估计 的 一 般 方 
法 。 这 些 方 法 能 用 于 后 面 几 章 将 要 阔 述 的 一 些 模 型 ,例如 计数 模型 与 持续 期 限 模 
型 。 香 要 的 例子 是 线性 模型 中 关于 删 失 或 截 尾 的 模型 ,这 在 16. 2 节 引 进 ,并 在 
16. 3 万 给 出 各 目 人 研究。 


16. 2. 励 失 与 截 尾 例 子 


设 y 表示 不 完全 可 观测 的 变量 。 对 于 从 下 面 的 截 尾 来 说 , 当 y 大 于 某 个 门 
限 值 时 ,y* 才 是 可 观测 的 。 为 了 简单 起 见 , 设 那个 门限 值 为 0。 于 是 , 当 y 盖 0 时 ， 
我 们 观测 到 y 二 y* 。 由 于 负 值 没 有 出 现在 样本 中 , 故 截 尾 均值 大 于 y* 的 均值 。 对 
于 从 下 面 0 点 处 的 删 失 来 说 , 当 y <0 时 ,y* 不 是 完全 可 观测 的 , 却 知道 y* 一 0， 
于 是 ,为 了 简单 起 见 , 令 y 等 于 0。 由 于 负 值 标 度 至 多 为 零 , 所 以 删 失 均值 同样 会 
大 于 y* 的 均值 。 很 明显 ,为 了 估计 最 初 总 体 均值 , 截 尾 与 删 失 样本 的 样本 均值 若 
没有 调整 ,就 不 能 加 以 运用 。 

本 章 将 研究 回归 模型 的 类 似 问题 。 幸 运 的 是 ,一 旦 令 斜率 系数 不 变 , 截 尾 与 其 
失 可 能 只 会 导致 截 距 的 上 下 移动 ;不 过 ,情况 还 远 不 止 这 些 。 例 如 ,车 最 初 模型 为 
E[y | 菇 一 xG , 则 截 尾 或 删 失 导致 关于 x 与 8 为 非 线性 的 ,所 以 OLS 给 出 了 6 的 
非 一 致 估计 ,从 而 产生 边际 效应 的 非 一 致 估计 。 

举 一 个 例子 阐述 ,考察 下 面 利用 模拟 数据 的 劳动 力 供给 例子 。 对 人 们 希望 的 
年 度 工作 小 时 数 y" 与 计时 工资 w 之 间 的 关系 , 设 定 成 具有 线性 对 数 的 形式 ,满足 
数据 生成 过 程 ， 


y’ 三 一 2 500T] 0001nw te (16. 1) 
3 一 人 0， 1 000? | 
In vw ~ NM|2.75, 0. 60° | 


这 是 一 个 Tobit 模型 ,对 它 的 详细 研究 在 16. 3 节 给 出 。 该 模型 蕴含 着 工资 弹性 是 
1 000/y* ,例如 ,这 等 于 全 日 制 工作 (2 000 小 时 )。 工 资 每 增加 10%, 年 度 工作 小 时 
增加 10 个 小 时 。 

图 16. 1 显示 关于 200 个 观测 值 生 成 样本 的 lnw 与 y 的 散 点 图 ,关于 yy* 的 无 
条 件 均 值 为 一 2 500 十 1 000 1n w, 该 值 由 最 下 面 曲线 给 出 , 它 是 一 条 直线 。 

对 于 在 0 点 删 失 来 说 ,将 交 的 负 值 设 为 0, 因为 具有 负 的 工作 意愿 小 时 的 人 员 
不 会 去 工作 。 对 于 这 种 特殊 样本 来 说 , 它 约 为 观测 值 的 35%。 这 促使 低 工资 均值 
上 移 , 因 为 y* 的 许多 负 值 被 移 至 0。 它 对 高 工资 很 少 有 影响 ,从 那 时 起 y* 上 很 少 
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不 同 条 件 均 值 





工资 自然 对 数 


16.1 小 时 对 工资 对 数 的 回归 :未 删 失 均值 (下 面 ) . 删 失 条 件 均 值 ( 中 间 ) ,以 及 关于 在 0 点 
小 时 处 以 下 删 失 /和 截 尾 的 截 尾 条 件 均值 (上 面 )。 数 据 由 经 典 线性 回归 模型 生成 。 


观测 值 为 0。 利用 后 面 的 式 (16. 23) ,图 16. 1 的 中 间 曲 线 给 出 了 作为 结果 的 截 尾 
均值 。 

很 明显 ,即使 基本 总 体 均 值 是 线性 的 , 删 失 与 截 尾 的 条 件 均 值 均 关 于 x 为 非 线 
性 的 。 利 用 截 尾 或 删 失 数据 的 OLS 估计 将 导致 斜率 参数 的 非 一 致 估计 ,观察 可 
知 ,图 16. 1 与 原来 未 截 昆 的 均值 相 比 ,对 非 线性 截 尾 与 删 失 的 线性 近似 将 具有 较 
平坦 的 斜率 。 相 反 ,分 析 应 建立 在 截 尾 或 删 失 的 条 件 均值 的 基础 上 上。 不幸 的 是 , 正 
如 我 们 将 要 看 到 的 ,这 些 均 建立 在 强 分 布 的 假设 基础 上 ， 

对 于 在 0 点 截 尾 来 说 ,y* 含有 负 值 总 体 的 35% 都 被 省 略 。 这 使 得 其 均值 大 于 
删 失 均值 ,因为 0 值 不 再 被 包括 在 数据 之 中 用 于 构成 均值 。 当 利用 后 面 的 式 
(16. 23), 图 16. 1 上 的 曲线 给 出 了 作为 结果 的 截 尼 均值。 


16.2.2 山 和 与 截 尾 宙 和 制 


作为 回归 分 析 的 一 种 习惯 , 设 y 表示 因 变 量 的 观测 值 。 违 背 通 常 分 析 的 是 ,yy 
成 为 潜 变 量 (latent dependent variable)y* 的 不 完全 观测 值 ,其 中 ,对 于 某 个 设 定 部 
数 g(，) 来 说 ,观测 规则 是 、 


y 一 SCy ) 
g(*) 的 一 些 重要 例子 如 下 。 
删 失 
对 于 删 失 ,我 们 总 是 观测 到 回归 元 x, 就 y 可 能 值 的 子 集 而 言 ,完全 观测 到 
y” ,而 就 y* 的 其 余 可 能 值 而 言 ,不 完全 观测 到 y。 当 删 失 从 下 面 ( 或 从 左 侧 ) 进 行 ， 
会 观测 到 : 


“， 当 y” 一 寺 
> (16. 2) 


L, 当 y’* 夺 LL 


例如 ,对 于 某 些 耐 用 品 支 出 为 正信 (y* 盖 0) 的 人 与 其 他 拥有 零 支 出 ( 交 科 0) 的 人 ， 
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所 有 消费 者 均 可 能 被 抽样 。 当 删 失 从 上 面 ( 或 从 右 侧 ) 进 行 ,会 观测 到 ，; 
|y,， 当 y*<U 
y= 人 了 (16. 3) 

例如 ,年 收入 数据 可 能 是 在 U 王 100 000 美元 处 进行 上 端 编码 。 删 失 的 这 种 形式 在 
持续 期 限 文献 中 称 为 第 工 类 删 失 (参见 17. 4. 1 节 )。 

为 了 简单 起 见 , 将 多 的 不 完全 可 观测 的 观测 值 设 为 元 或 已。 更 一 般 地 ,我 们 
要 求知 道 , 不 完全 可 观测 的 观测 值 y* 是 缺失 的 (也 就 是 说 ,可 观测 到 y 位 于 有 关 
界限 之 外 ) ,并 县 回归 元 xx 继续 是 完全 可 观测 的 。 

截 尾 

由 于 所 有 观测 值 数据 在 某 个 界限 处 丢失 ,所 以 截 尾 承受 宾 外 的 信息 损失 。 对 
于 从 和 下面 截 尾 来 说 ,仅仅 观测 到 


当 y” 六 LL 时 , y 二 yy” (16. 4) 


例如 ,只 对 购买 耐用 品 的 消费 者 进行 抽样 。 对 于 从 上 面 截 尾 来 说 ,我 们 仅仅 观 
测 到 : 


当 y 二 UU 时 ,yy 二 yy (16.5) 


例如 ,只 对 低 收入 个 体 进行 抽样 。 

区 间 数 据 

区 间 数 据 (interval data) 是 以 区 间 形 式 记录 的 数据 。 调 查 数据 经 常 是 以 这 种 
方式 收集 的 ,以 便 帮 助 回忆 并 提供 某 个 较 大 匿名 者 答复 更 多 的 个 人 问题 。 例 如 , 收 
人 可 能 被 报告 在 10 000 美元 至 上 端 编码 100 000 美元 处 。 这 类 数据 在 多 个 点 处 被 
删 失 ,观测 到 数据 > 位 于 某 个 特殊 区 间 之 内 ,不 可 观测 值 y 就 位 于 该 区 间 内 。 


16. 2.3 岗 失 与 截 届 


倘若 研究 者 应 用 完全 参数 方法 , 则 对 删 失 与 截 尾 很 容易 处 理 。 例 如 ,这 可 能 是 
含有 区 间 数 据 或 上 端 编 码 数据 的 情形 ,合理 假定 收入 为 对 数 正 态 分 布 或 医生 出 诊 
次 数 为 负 的 二 项 分 布 。 

如 果 对 给 定 回 归 元 时 y* 的 条 件 分 布 加 以 设 定 , 那 么 这 种 分 布 的 参数 能 通过 基 
于 删 失 或 截 尾 y 的 条 件 分 布 的 ML 估计 而 得 到 一 致 且 有 效 的 估计 。 特 别 地 , 设 
f"(y |x) 与 PF"(y" |x) 表 示 潜 变量 y* 的 条 件 概 率 密度 滑 数 (或 者 概率 质量 肾 数 ) 与 
累积 分 布 函 数 。 于 是 ,由 于 y 二 gly’) 是 y* 的 变换 ,所 以 人 们 总 是 能 获得 其 可 观测 
因 变 量 y 的 对 应 条 件 pdf 与 cdf。 

参数 方法 的 局 限 性 是 它 依据 强 分 布 假设 。 例 如 ,对 于 线性 回归 模型 来 说 ,即使 
误差 是 非 正 态 的 ,在 正 态 性 下 MLE 仍 是 保持 一 致 的 ,但 奢 误 差 是 非 正 态 的 , 删 失 
会 变 成 非 一 致 的 (参见 16. 3. 2 节 )。 更 为 灵活 的 一 些 模型 与 半 参 数 方法 将 在 后 面 
几 节 阐述 。 

删 夫 MLE 

删 失 与 截 尾 既 可 使 条 件 均值 变化 ,又 可 使 条 件 密度 变化 。 我 们 下 面 以 密度 开 
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始 研 究 。 

考察 给 定 从 下 面 删 失 的 ML 估计 。 对 于 y>L,y 的 密度 与 y* 的 密度 是 一 样 
的 ,所 以 f(y|x) 二 了 f*《(y|x)。 对 于 y= 二 上 , 即 下 界 情况 ,其 密度 是 含有 质量 等 于 观测 
多 全 上 L 概率 的 离散 或 F* (LIx)。 因 而 ,对 于 下 面 删 失 来 说 : 


f*(y|lx),， 当 vy>L 
F*(L|x),， 当 y 二 L 
正如 式 (16. 3) 所 提 及 的 , 当 y* 二 LL 时 ,不 一 定 设 y= 二 L。 当 y* 委 世 时 ,即使 没有 可 
观测 的 y 值 ,其 密度 仍然 是 F*(L|x)。 

密度 是 y* 的 pdf 与 cdf 的 混合 之 物 。 与 二 值 结果 模型 分 析 相 似 , 在 记号 形式 
上 引信 指示 变量 


rolo=1 


do 3 y—L (16. 6) 
是 方便 的 。 于 是 ,给 定 从 下 面 删 失 时 ,条 件 密 度 能 重新 写成 : 
fiy|lx)=f* (ylx) PF* (LIx)! / (16. 7) 


对 于 NN 个 独立 观测 值 的 样本 ,其 删 失 MLE 是 对 


N 


In Ly(0) = > {dlnf’'(ylxs0) + — dnF(Llx,0)} (16.8) 


1 一 ] 


求 极 大 值 , 其 中 ,9 表示 yy ' 分 布 的 参数 。 一 般 来 讲 , 删 失 下 界 工 ; 被 允许 随 不 同 个 体 
而 变化 ,尽管 通常 L; = 二 L。 倘 阁 未 删 失 变量 的 最 初 密度 f(y* |x,9) 被 正确 设 定 , 则 
删 失 MLE 是 一 致 的 且 渐 近 正 态 的 。 
然而 , 当 删 失 是 从 上 面 进 行 时 ,对 数 似 然 类 似 于 式 (16. 8) ,现在 只 是 当 y 二 U 
时 = 二 1, 耕 则 4 二 0, 同 时 用 1 一 F* (U|x,0) 代 蔡 下 ( 工 |x,9) 。 一 个 重要 例子 是 , 右 
删 失 持 续 期 限 数 据 ( 参 见 17.4 节 )。 
截 尾 MLE 
对 于 在 上 处 从 下 面 截 尾 来 说 ,不 使 用 对 x 的 相依 性 ,观测 y 的 条 件 密度 为 
f(y)=f*(y|y>L) 
=f*(y)/PrLy|y>L) 
=f"*(y)/L1—F*(L)|] 


因此 ,其 截 尾 MLE 是 对 
~N 
In Ln(0) = 2 {lnf’*Cy;|x,0) — Inf1— F*(L,|x;,0)]) (16. 9) 
i 二 ] 


求 极 大 值 。 相 反 , 如 果 截 尾 是 从 上 面 进行 的 ,那么 对 数 似 然 是 式 (16. 9), 只 是 用 
F*(U|x,0) 代 替 1] 一 F*(L |x,0)， 

和 藻 忽 略 删 失 或 截 尾 , 则 会 导致 非 一 致 性 。 例 如 ,大 截 尾 被 忽略 了 ,MLE 对 
2iln 广 (yx ,9) 求 极 大 值 , 这 样 做 得 到 错误 的 似 然 图 数 , 因 为 它 省 略 式 (16. 9) 中 - 
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的 第 二 项 。 删 失 与 截 尾 的 一 致 性 要 求 对 f(:) 正确 设 定 ,从 而 要 求 对 f"(，) 潜 变量 
密度 正确 设 定 。 即 使 f*(*) 是 LEF 密度 (参见 5.7. 3 节 ), 若 闻 述 删 失 或 截 尾 , 则 不 
仅 均值 必须 得 到 正确 设 定 , 其 密度 也 必须 要 得 到 正确 设 定 。 

区 间 数 据 MLE 

假定 湾 变 量 只 有 位 于 互 不 相交 区 间 ( 一 co,ajj,(aiyaz],……,(ajiy co) 时 , 才 是 
可 观测 的 ,其 中 Ul Hd29""" 90 雯 是 已 车 的 。 于 是 ， 由 于 : 


PrLa < 六 委 ai+i ] 王 PrLy <ajn 一 PrLy <a,| 
一 下 (ai 上 1) 一 下 (ai 


所 以 区 间 数 据 MLE 是 对 


N J 
ln Lv 0) -一 > cd lnlL F* (ah | > ,0) — FPF* (a; | 人生; ,0) | (16., 10) 


一 | j=0 

求 极 大 值 , 其 中 » di 表示 二 值 指 示 变 量 ,7 一 0 当 Vi EC (Qi ,Qi 时 ,ai 二 1, 窑 
则 为 0。 这 类 似 于 有 序 probit 或 者 logit 模型 (参见 15. 9. 1 节 ), 只 是 此 处 区 间 边 界 
aaJ 均 是 已 知 的 。 


16.2.4 沪 松 剧 关 与 截 必 MLE 例子 


假定 服从 泊 松 分 布 ,因此 f* (2 一 e eV, 并 且 ljn 广 () 王 一 ATyinp 一 yl 
其 均值 一 exp(x B)。 

假定 对 去 健康 诊所 就 诊 的 次 数 进行 建 模 ,但 只 有 那些 去 健康 诊所 就 诊 的 人 员 
数据 才 可 以 利用 。 于 是 ,此 数据 是 从 0 处 以 下 截 尾 的 ,同时 当 y* 盖 0 时 ,我 们 才 可 
观测 到 y 二 y 。 从 而 ,F*(0) 二 Pr[y’ 志 0] 二 PrLy* 一 0] 二 e*, 由 式 (16. 9) 知 ,关于 
B 的 截 尾 MLE 是 对 


N 


jn Ln (8)= > { 一 exp(xBG) 十 yx 一 ln y,! 一 ln[1 一 exp( 一 exp(Cx DG))]) 


求 极 大 值 。 

然而 ,假定 由 于 上 端 编码 的 缘故 ,数据 在 从 上 面 10 处 被 删 失 ,因此 , 当 y” 二 10 
时 ,我 们 观测 到 > 一 y” ,而 当 y* 宇 10 时 ,y 王 10, 从 而 ,PrLy ”之 10] 王 1 一 PrLy ”到 
10] 二 1 一 _,f*(k)。 由 式 (16. 8) 知 ,关于 G 的 删 失 MLE 是 对 


N 
In Ln(B) = > {di[— exp(x'B) + yxB — In yi!] 
i=] 
9 
+ (1—d)ln| De (exp(xiB))*/k! ] 
上 二 人 0 


求 极 大 值 。 

在 上 述 两 种 情况 下 ,与 没有 截 尾 或 删 失 的 那些 泊 松 一 阶 条 件 相对 比 ,得 到 的 一 
阶 条 件 是 相当 复杂 的 。 再 者 ,在 这 两 种 情况 下 , 若 忽 略 截 尾 或 删 失 ,并 求 最 初 密度 
极 大 值 , 则 导致 非 一 致 参数 佑 计 。 
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16.2.5 右 失 与 截 必 条件 均 值 


删 失 与 截 尾 部 促使 条 件 均 值 改变 了 。 

例如 ,考察 从 下 面 0 处 截 尾 的 泊 松 分 布 。 甚 截 尾 密度 为 f*(y)/[1 一 F*(0)]， 
y 二 1,2,… ,所 以 截 尾 均 值 为 22 kk)/[1 一 F* (0)] 二 2k CR)/[1—F*(0)]= 
xu/(1 一 e “*)。 因 而 有 : 


FLy|x|=exp(x 8)/[1—exp(—exp(x GB))] 


而 不 是 没有 截 尾 情 形 的 exp(x 6B ) 。 

ELy|xj 的 这 个 表达 式 可 用 于 NLS 估计 。 不 过 , 由 于 给 定 截 尾 时 NLS 估计 量 
依赖 的 分 布 假设 在 本 质 上 强 于 更 有 效 ML 估计 量 -一 致 性 需要 的 那些 假设 ,所 以 相 
对 于 NLS 而 不 是 ML 估计 来 说 ,并 没有 什么 优势 。 


16.3 Tobit 模型 


在 包括 服从 正 态 分 布 误 差 的 经 济 计量 学 线性 回归 模型 中 , 当 只 有 正 的 结果 是 
完全 可 观测 的 时 候 , 最 常 出 现 截 尾 与 删 失 。 这 种 模型 以 托 宾 (Tobin，1958) 名 字 命 
名 , 托 宾 将 它 应 用 于 消费 者 耐用 品 的 个 体 开支 上 。 实 际 上 ,该 模型 通常 表现 出 约束 
性 太 强 。 不 过 ,这 里 仍 以 某 种 详细 方式 阐述 它 , 因 为 此 模型 为 本 章 后 面 几 节 要 阐述 
的 更 一 般 模 型 提供 了 基础 。 


16.3.1 Tobit 模型 


删 失 正 态 回归 模型 或 Tobit 模型 ,是 一 种 从 下 面 0 点 处 删 失 的 模型 ,其 中 , 洪 
变量 关于 回归 元 是 线性 的 ,其 可 加 误差 是 正 态 分 布 的 且 同 方差 的 。 因 而 ,有 : 


y’* =—=x te (16. 11) 
其 中 ,误差 项 为 : 
e ~NM|0,o’| (16. 12) 
对 不 同 观 测 值 来 说 ,具有 常 值 方 差 了 。 这 蕴含 , 潜 变 量 y* ~ ML XB,o?]。 可 观 
测 的 > 是 满足 L 二 0 的 。 这 一 结果 由 式 (16.2) 定 义 , 因 此 ,有 : 
> 9 当 yy > 
,一 


(16. 13) 
本 当 y” 二 .0 


其 中 ,“ 一 ”表示 > 作为 缺失 可 观测 的 。 当 y” 二 0 时 ,y 的 特殊 值 没 有 必要 一 定 是 
可 观测 的 ,尽管 在 某 些 设 置 下 ,例如 耐用 品 支 出 ,我 们 可 以 观测 到 y= 二 0。 
方程 组 (16. 11) 一 (16. 13) 定 义 出 由 托 宾 (Tobin，1958) 分 析 的 原始 Tobit 模 
型 。 更 一 般 地 ,Tobit 模型 是 以 式 (16. 11) 与 式 (16. 12) 关 于 潜 变 量 开 始 的 ,但 可 拥 
有 其 他 的 删 失 机 制 ,包括 从 上 面 删 失 、 从 下 面 与 上 面 删 失 ( 两 部 分 限制 Tobit 模 
型 ) ,以 及 区 间 删 失 数 据 。 本 节 中 的 结果 被 限制 在 由 式 (16. 13) 给 出 的 删 失 机 制 上 。 
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后 面 几 节 模型 ,有 时 称 为 广义 Tobit 模型 。 

在 许多 设置 背景 下 ,正规 化 工 王 0 不 仅 是 自然 的 ,而 且 对 含有 截 距 且 常 值 门限 
参数 的 线性 模型 来 说 是 必需 的 。 于 是 , 当 交 二 世 时 ,或 者 等 价 地 当 记 十 xz 十 s 盖 革 
或 (8 一世 ) 十 xz 十 se 盖 0 时 , 才 可 观测 到 >。 因 而 ,唯一 的 差 (让 一 LL) 是 可 识别 的 。 
更 一 般 地 ,从 观测 上 看 ,含有 变量 删 失 门限 工 王 xy 的 潜 模 型 二 x 8 十 e 等 价 于 含 
有 固定 门限 工 一 0 的 潜 模 型 y* 一 x (6 一 >) 十 s。 这 些 结果 是 含有 可 加 误差 线性 模 
型 因 删 失 产 生 的 重要 结论 , 却 不 可 应 用 到 非 线 性 模型 上 ,譬如 前 面 的 泊 松 例子 。 

若 对 删 失 密度 应 用 一 般 表 达 式 (16.7), 则 此 处 广 (y) 是 KWTx Go] 密度 ,同时 
有 : 

F* (0)=Pr[y* 达 0] 
一 PrLxG 二 se 委 0 
一 中 (一 X DG]c) 
一 1 一 下 (x 9]c) 


其 中 ,gl(*) 表 示 标 准 正 态 cdf ,而 最 后 等 式 使 用 了 标准 正 态 分 布 的 对 称 性 。 因 而 ， 
删 失 密 度 能 表述 成 
/wsp(-B 68”)| [1a(s2)| (16. 14) 


其 中 ,二 值 指示 变量 是 由 式 (16. 6) 定 义 的 ,并 满足 L 二 0。 
Tobit MLE 9 一 (6B ,6) 是 对 删 失 对 数 似 然 函 数 (16. 8) 求 极 大 值 。 给 定式 
(16. 14) , 它 变 成 ， 
N 
In Ly(B,0’) = > (a (一 译 In ax — FIno’— 25Cy x)’) (16.15) 
tO-addn(1—@(ee))) 


它 为 离散 密度 与 连续 密度 的 混合 .其 一 阶 条 件 为 ; 


1 一 ] 


amLn Sl 四 og 

DC 之 pe (ay Xi ) (1 ad; ) TS)* =- 一 从 (16. 16) 
= | -ta 矶 }- 
td fg 3 一 。 


这 里 利用 了 9@(z)7/a(z) 一 gz) ,其 中 ,4 ) 表 示 标 准 正 态 pdf ,而 且 满 足 定 义 $; 二 
$xXiB/o) 且 ®; 一 ®@(%B/o)。 与 以 往 一 样 ,如 果 密 度 得 到 正确 设 定 , 即 数据 生成 过 
程 是 式 (16. 11) 与 式 (16. 12) ,上 且 删 失 机 制 是 式 (16. 13) ,那么 8 是 一 致 的 。MLE 服 
从 渐 近 正 态 分 布 ,例如 ,其 方差 窍 已 由 马达 拉 (Maddala，1983 ,第 155 页 ) 和 雨 宫 
(Amemiya，1985 ,第 373 页 ) 给 出 。 

托 宾 (CTobin，1958) 提 出 Tobit 模型 的 ML 估计 ,同时 断言 可 应 用 ML 理论 。 
雨 宫 (Amemiya，1973) 提 供 了 通 稼 理论 可 以 应 用 的 正式 证 明 , 尽 管 删 失 密 度 具 有 
混合 的 离散 一 连续 特性 。 雨 官 在 这 篇 经 典 论 文 附录 中 详 述 了 由 5. 3 市 阐述 的 极 值 
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估计 量 。 
如 果 数 据 是 从 下 面 0 点 处 截 尾 的 而 不 是 删 失 的 ,那么 Tobit MLE 是 对 截 尾 正 
态 对 数 似 然 函 数 : 


N 
InLN(CB,a2) 一 > (一 nc: —3In2r—2a(y xB) —In XB /0) | 
i 二] 


20° 
(16. 17) 


求 极 大 值 ,一 旦 利用 关于 y* 的 式 (16. 9) ,可 获得 如 同 式 (16. 11) 与 式 (16, 12) 的 
分 布 。 


16. 3.2 Tobit MLE 的 拭 一 致 性 


Tobit MLE 的 一 个 非常 严重 的 弱点 ,是 它 紧密 地 依赖 于 分 布 假设 。 厅 误差 s 
是 异 方差 的 或 非 正 态 的 , MLE 则 为 非 一 致 的 。 

这 可 从 MLE 一 阶 条 件 (16. 16) 看 出 , 它 是 包含 变量 4;、y;、$; 和 gb; 的 复 林 函 
数 。 式 (16. 16) 中 第 一 个 方程 满足 ELaln Lv/aEG@j=0, 即 一 致 性 的 必要 条 件 ( 人 参见 
5. 3.7 节 ) ,倘若 : 


ELa, | 一 中 ， 
下 | ad. y; |= Bx;B 十 ab， 


可 以 证 明 , 若 数据 生成 过 程 是 式 (16. 11) 与 式 (16. 12), 且 删 失 机 制 为 式 (16. 13), 则 
这 些 矩 条 件 成 立 。 不 过 ,在 数据 生成 过 程 的 任何 其 他 设 定 下 ,它们 不 可 能 成 立 , 因 
为 其 紧密 地 依赖 于 正 态 性 和 同方 差 性 。 例 如 ,具有 异 方差 误差 ,此 佑 计量 是 非 一 致 
的 ,从 而 EL 4;j= 二 B(xiB/oi) 关 @; ,除非 0 二 2 。 

通过 对 异 方差 性 设 定 一 个 模型 ,比如 说 @? 二 exp(ziY ) ,对 带 有 异 方 差 正 态 误差 
的 模型 进行 一 致 估计 是 可 能 的 。 对 于 从 0 点 处 下 面 删 失 , 对 数 似 然 ln Ln (B,7Y) 是 
由 式 (16. 15) 给 出 的 ,并 且 用 exp(z7 ) 代 替 到。 于 是 ,一 致 性 需要 正 态 误差 , 且 对 
异 方差 性 的 图 数 形式 要 求 正 确 设 定 。 

很 明显 ,就 删 失 或 截 尾 而 言 ,分 布 假设 变 得 极为 重要 ,其 至 在 没有 删 失 或 没有 
截 尾 的 情况 下 ,对 错误 设 定 稍微 稳健 的 分 布 也 是 如 此 。 对 Tobit 模型 的 设 定 检验 
在 16. 3.7 节 加 以 讨论 。 在 许多 删 失 数据 应 用 中 ,Tobit 模型 并 不 合适 。 相 反 ,时运 
用 本 章 后 面 儿 节 前 述 的 更 一 般 模型。 


16. 3.3 线性 回 轨 的 出 和 失 与 截 必 均 值 


线性 回归 模型 (16. 11) 中 的 删 失 与 截 尾 ,会 导致 可 观测 因 变 量 y 拥有 含有 条 件 
均值 而 不 是 x8 的 分 布 ,即使 e 是 同方 差 的 ,其 方差 为 条 件 方差 而 不 是 ,同时 即使 
e 是 正 态 分 布 ,该 分 布 也 是 非 正 态 的 。 

在 专门 研究 16. 3. 4 节 至 16. 3. 7 节 的 正 态 分 布 误差 之 前 ,我 们 在 本 节 阅 述 线 
性 回归 的 一 般 结果 。 一 些 结果 提供 了 关于 截 尾 与 删 失 后 果 的 另 一 种 见解 ,同时 形 
成 后 面 几 节 阐述 的 非 估 计 方 法 的 基础 。 

我 们 以 截 尾 均值 开始 。 从 直观 上 看 , 截 尾 的 影响 是 可 预测 的 。 在 截 尾 排除 很 
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小 的 值 ,因此 其 均值 应 增 大 ,而 右 截 尾 的 均值 应 减 小 。 由 于 截 尾 使 变异 范围 缩小 ， 
所 以 其 方差 应 减 小 。 

对 于 在 0 点 左 截 尾 来 说 , 当 y* 二 0 时 , 才 观 测 到 y。 为 了 记号 简单 起 见 ,我 们 
不 用 对 xz 期望 的 相依 性 ,那么 在 截 尾 均值 变 成 : 


ELy|=ELy’|y’ >0] (16. 18) 
=E[lx Belx Be >0] 
—E[x Bl|Ix Be >0l+E[le|x ++e >0| 
=x BElele >—x 6B] 


其 中 ,第 二 个 等 式 使 用 了 式 (16. 11) ,并 且 最 后 等 式 假 定 s 与 x 是 独立 的 。 如 同人 
们 所 料 , 截 尾 均 值 大 于 x.G ,因为 对 任何 常 值 来 说 ,ELele >c ] 将 大 于 E[e]。 

对 于 在 0 点 的 左 删 失 来 说 ,假定 可 观测 到 y= 二 0, 而 不 仅 是 y* 三 0。 删 失 均 值 可 
通过 首先 对 可 观测 的 y 以 满足 L 二 0 并 由 式 (16. 6) 所 定义 的 二 值 指 示 变 量 为 条 件 ， 
然后 无 条 件 化 。 为 了 记号 简单 起 见 , 再 一 次 不 用 对 x 的 相依 性 ,我 们 得 到 左 删 失 
均值 : 

Elyj=El Ealyld|j| 
=Pr[d=0]XE[y|d=01+Prfd=1]XE[y|ld=1] (16. 19) 
=0XPr[y* <0]Pr[y’ >01XE[y |y* >0] 

一 Pr >0]xElLy'|y’ >0| 


其 中 ,PrL 交 > 盖 0]=1 一 PrLy 委 0]= 王 PrLe 放 一 x Bj] 表示 1 减 去 删 失 概率 ,而 
EL y* |y* 半 0] 表 示 由 式 (16. 18) 推 导 的 截 尾 均值 。 
总 之 ,对 于 线性 回归 模型 来 说 ,从 下 面 0 点 处 删 失 或 截 尾 ,其 条 件 均 值 由 
潜 变 量 ， ELy'|x]=x 6 
左 截 旦 (在 0 点 ); ELy|xyy>>0]=XG 十 ELele 盖 一 xD] (16. 20) 
左 删 失 ( 在 0 点 ): Ef[ylxj] 二 Prfe 首 一 x B81{xB 十 Elele 半 一 x'B1 


给 出 。 很 显然 ,尽管 最 初 条 件 均 值 是 线性 的 ,但 删 失 或 截 尾 会 导致 条 件 均 值 是 非 线 
性 的 ,因此 OLS 估计 将 是 非 一 致 的 。 

所 采用 的 一 种 可 能 方法 是 对 的 分 布 假定 成 参数 形式 。 这 会 产生 ELele 二 
一 XBj 与 Prle 一 x[B] 的 表达 式 , 从 而 获得 截 尾 或 删 失 条 件 均值 。 我 们 在 下 一 
节 关 于 正 态 分 布 误差 的 条 件 下 解决 此 问题 。 

. 第 二 个 方法 试图 回避 或 极 小 化 这 类 参数 假设 。 我 们 在 下 一 节 将 讨论 该 问题 ， 
但 这 里 注意 到 ,不 管 s 的 分 布 如 何 , 由 于 ELels 一 xj] 关于 xG 是 单调 递减 函数 ， 
所 以 截 尾 均 值 是 含有 关于 x 8 是 递减 的 校正 项 的 单 指标 模型 。 


16. 3.4 Tobit 模型 的 册 失 与 截 届 均 值 


对 于 Tobit 模型 来 说 ,回归 误差 6 是正 态 的 ,并 且 我 们 运用 将 由 16. 10. 1 节 推 
叶 的 下 述 结 采 。 
命题 16. 工 标准 正 态 的 截 尾 矩 ) 假定 = 一 人 WL0,1j。 于 是 ,z 的 左 截 尾 纸 是 : 
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(1) Elz|z>cJ=$C0)/L1l—@(c) | 并 有 Elz|z>—c]=#$(c) /Bo); 

(1) E[z |z>c =1+teg C0) /1 ®()); 

(C111) Vz|z>cj=1+cg (OO/L1—®(0) yc) /Ll ®(e) ].。 

命题 16. 1 的 结果 (D 已 表示 在 图 16. 2 中 。 我 们 考察 z 一 AL0,1] 从 下 面 0 点 
规 尾 ,其 中 ,可 从 一 2 到 2 变动 。 最 下 面 的 曲线 是 在 c 点 计算 的 标准 正 态 密度 。 
中 间 曲 线 是 在 c 点 计算 的 标准 正 态 cdf @(c) ,同时 当 在 c 点 截 尾 时 ,给 出 了 截 尾 的 
概率 。 这 一 概率 在 c 王 一 2 时 大 致 为 0.023, 而 在 c= 二 2 时 大 致 为 0. 977。 最 上 面 的 
曲线 给 出 截 尾 均值 ELz|z 盖 cj]=y%(c)/L1L 一 下 (Cc)]。 如 同 所 预期 的 ,对 于 c 一 一 2 ,这 
接近 于 ELzj 王 0, 从 而 几乎 没有 截 尾 ,而 且 ELz|z>cj]>c。 没 有 预料 到 的 是 , 先 验 
为 %Cc)VL1 一 下 (c)] ,特别 对 c>0,4%Cc)/L1 一 昌 (c)] 大 致 是 线性 的 。 当 截 尾 从 上 面 
进行 时 ,就 可 利用 和 拖 ,例如 ,ELz|z 二 cj 二 一 E[ 一 z| 一 z 之 一 == 一 $(c)/@®(e)， 


逆 米 尔 斯 比值 随 截 止 值 而 变化 





鹤 止 点 


图 16.2 “” 当 删 失 或 蕉 止 点 “ 增 大 时 ,标准 正 态 分 布 的 逆 为 米尔 斯 比值 。 同 时 画 出 标准 正 态 cdf 
与 密度 。 


若 把 这 一 结果 应 用 于 式 (16. 18) , 则 误差 项 具有 删 失 均值 
Elele >—x8]=oE[£|£>—2| (16. 21) 
=-#(— /he(-2)] 
-=o#()/[s(¥) 
x 


-a() 
其 中 ,第 二 个 等 式 使 用 了 命题 16. 1, 第 三 个 行使 用 了 %(z) 关 于 0 的 对 称 性 , 而且 我 
们 和 窍 义 : 
A(z) — OE (16. 22) 


如 同 式 (16. 22) 在 定义 时 遵循 了 雨 官 (Amemiya，1985) 以 及 许多 其 他 学 者 的 定义 
及 术语 ,将 它 称 为 闭 米 尔 斯 比值 Cinverse Mills ratio) 。 由 约翰 逊 和 卡 蒋 (Johnson 
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and Kotz, 1970, 第 278 页 ) 可 知 , 米 尔 斯 实际 上 将 比值 (1 一 惠 (z))7 gz) 列 成 表 , 而 
该 比值 的 逆 是 正 态 分 布 的 风险 函数 。 因 此 ,一 些 作 者 反而 把 式 (16. 21) 写 成 
Elele 放 一 xBj]==oA* (一 XB/o), 其 中 ,将 入 (zz) 一 8(z)/@( 一 z) 称 为 逆 米 尔 斯 比值 。 

同 理 ,Pr[e 一 x 8 |=Pr[ 一 e < xD]=PrL 一 se <x B/oc|=@(x B/o)。 于 
是 , 式 (16. 20) 中 的 条 件 均值 特别 变 成 : 


潜 变 量 : E[y’'|x|=x 6 (16. 23) 
左 截 尾 (在 0 点 ):; EL[y|x, y 宝 0] 一 x BB 十 oA(x DB/c) 
左 删 失 (在 0 点 ): EL[y|x| 一 B(x 8B/o)x Bog(x B/o) 


类 似 地 ,可 获得 方差 (参见 16. 10. 1 节 )512。 定义 w= 二 x BB/o, 我 们 得 到 ， 


潜 变 量 : Vly' |x|=o’ (16. 24) 
左 截 尾 ( 在 0 点 ):; Vly|x, y 记 0 二 og?[1 一 wA(w) 一 A(w)? | 
左 删 失 (在 0 点):， Viy|x| 一 o? (rw) {vw 十 wwA(tw) 十 1 一 (rw) [rw ACw) 1])}: 


很 显然 , 截 尾 与 删 失 引起 异 方差 性 ,而 对 于 截 尾 ,VLy|xj<c: ,因此 如 同人 们 所 料 ， 
截 尾 缩减 了 可 变性 。 

这 些 结果 均 假定 正 态 误差 。 马 达 拉 (Maddala, 1983, 第 369 页 ) 给 出 了 关于 对 
数 正 态 分 布 .逻辑 斯 蒂 分 布 均匀 分 布 . 拉 普 拉 斯 分 布 .指数 分 布 以 及 伽 玛 分 布 的 类 
似 于 命题 16. 1 的 结论 。 


16. 3.5 Tobit 模 斑 的 边际 效应 


边际 效应 是 回归 元 上 的 变动 对 因 变 量 条 件 均值 的 影响 。 这 种 效应 和 
容 是 否 在 于 潜 变 量 均值 x 6 或 由 式 (16. 23) 给 出 的 截 尾 或 删 失 均值 而 变化 。 
对 每 一 个 关于 x 求 微 分 ,得 到 潜 变 量 . 


游 变量 : 3E[ 关 |xj/ax 一 C (16. 25) 
左 截 尾 ( 在 0 点 ): 9E[y, y 之 0|x]/9x 二 {1 一 wA(w) 一 A(w)?}6 
左 删 失 ( 在 0 点 ): 9E[ yjx|/93x 二 鲁 (w)BB 


其 中 ,=xG]c ,同时 我 们 使 用 了 ao@(z)/oz 一 gz) 以 及 3g(z)V/az 一 一 zgCz)。 删 失 
均值 的 简单 表达 式 , 可 通过 某 种 处 理 来 获得 。 它 被 分 解 成 两 种 效应 ,其 一 是 关于 
y 一 0 的 效应 ,其 二 是 关于 y>0 的 效应 | 参见 麦 元 唐 纳 和 莫非 特 (McDonald and 
Moffitt，1980) |。 

在 一 些 情况 下 , 截 尾 或 删 失 刚好 是 收集 数据 的 人 工 制 品 , 因 此 截 尾 与 删 失 均值 
不 是 内 在 关注 的 内 容 , 而 我 们 对 9ELy |xj/9x 二 6B6 感 兴趣 。 例 如 ,就 上 端 编码 薪水 
数据 而 言 ,显然 我 们 对 测算 受 教育 对 平均 薪水 的 影响 而 不 是 那些 没有 上 端 编码 薪 
水 的 效应 感 兴 趣 。 

在 其 他 一 些 情况 下 , 截 尾 或 删 失 具有 特定 意义 。 例 如 ,在 工作 小 时 模型 中 , 式 
(16. 25) 中 的 三 种 边际 效应 分 别 对 应 于 以 下 三 种 回归 元 变动 效应 ;(1) 期 望 工作 小 


[1] 原著 这 里 为 习题 16. 1, 但 应 改 为 16. 10. 1 节 。 一 一 译 者 注 
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时 ; (2) 工人 的 实际 工作 小 时 ;(3) 工人 与 非 工人 的 实际 工作 小 时 。 对 于 (1) 来 说 ， 
很 明显 ,我 们 需要 估计 8, 但 对 于 (2) 与 (3) 来 说 ,显然 关于 8 是 非 一 致 的 ,但 斜率 系 
数 可 能 确实 提供 边际 效应 的 一 种 合理 粗略 估计 值 , 因 为 截 昆 与 删 失 均值 关于 x 仍 
然 是 线性 的 。 


16. 3.6 Tobit 模型 的 可 选择 信和 计 量 


除 MLE 之 外 ,通过 建立 在 关于 截 尾 或 删 失 均值 正确 表达 式 基 础 上 的 NLS, 可 
能 获得 一 致 估计 。 我 们 考察 NLS 估计 量 以 及 其 他 的 最 小 二 乘法 佑 计量 。 

NLS 估计 量 

式 (16. 23) 中 的 结果 能 用 于 通过 NLS 获得 Tobit 模型 参数 的 一 致 估计 值 。 例 
如 ,对 于 截 尾 数据 ,我们 求 


N 
Sn(Byo) = > (Oy;— XB —oA(xB /oY 
i=1 


既 关 于 6B 的 极 小 值 ,又 关于 oa 的 极 小 值 ,然后 实施 对 由 式 (16. 24) 给 出 的 异 方差 性 
加 以 控制 的 推断 。 对 于 删 失 数据 ,可 获得 类 似 的 佑 计 值 。 

在 实际 应 用 中 , 并 不 使 用 这 种 佑 计量。 一 致 性 要 求 对 稚 尾 均值 的 正确 设 定 ,由 
式 (16. 21) 知 ,这 既 需 要 误差 的 正 态 性 ,又 需要 同方 差 性 。 人 们 还 可 通过 ML 进行 
估计 ,因为 这 恰好 依赖 于 强 假设 ,同时 是 完全 有 效 的 。 此 外 ,在 实际 应 用 中 ,NNLS 
估计 量 可 能 是 不 精确 的 。 由 图 16. 2 知 ,显然 ,A(x 6/o) 关 于 xB/o 大致 是 线性 的 ， 
由 于 x 也 是 回归 元 ,所 以 导致 近似 共 线 性 。 在 16. 5 节 ,我 们 将 考察 ,允许 校正 项 类 
似 于 式 (16. 23) 中 的 oA(xB/o) 模 型 ,其 优点 是 部 分 地 依赖 于 回归 元 而 不 是 x 中 的 
那些 元 素 。 

赫 克 时 两 步 估 计量 

由 式 (16. 23) 知 , (在 零点 ) 截 尾 均 值 为 : 


E[y|x|=x BoA (x B/o) (16. 26) 


车 可 以 利用 删 失 数据 , 则 利用 下 述 两 步 方 法 进行 估计 ,而 不 使 用 NLS。 首 先 , 对 全 
部 样本 实施 d 对 x 的 probit 回归 , 当 y 六 0 时 是 可 观测 的 ,二 值 变 量 4 等 于 0, 从 而 
得 出 一 致 估计 值 G, 其 中 ,w 王 G/c。 其 次 ,为 了 获得 B 与 o 的 一 致 佑 计 值 ,对 稚 尾 
样本 实施 y 对 x 与 4(x a) 的 OLS 回归 。 

归功 于 替 克 曼 (Heckman，1976，1979) 的 这 种 估计 方法 ,将 在 16. 5.4 节 闸 述 ， 
那里 它 将 用 于 更 一 般 的 样本 选择 模型 。16. 10. 2 节 推 导 的 标准 误差 ,这 可 解释 回 
归 元 (xcG) 依 赖 于 估计 参数 以 及 由 截 尾 而 引起 的 异 方差 性 。 

Tobit 模型 的 OLS 估计 

利用 删 失 数据 或 截 尾 数据 的 OLS 估计 关于 B 是 非 一 致 的 。 这 是 因为 由 去 
(16. 23) 给 出 的 删 失 与 截 尾 均值 并 不 等 于 x B ,这 违背 了 关于 OLS 一 致 性 的 根本 
条 件 。 

对 于 删 失 数据 ,OLS 提供 了 对 非 线 性 删 失 回归 曲线 的 一 种 线性 近似 。 由 图 
16. 1 与 式 (16. 25) 知 ,很 明显 ,这 条 线 与 未 删 失 数据 的 回归 线 相 比 更 为 平坦 ,其 冬 
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率 却 等 于 真实 斜率 参数 。 戈 德 伯 格 (Goldberger，1981) 以 解析 形式 已 经 证 明 ,如果 
y 村 xx 是 联合 正 态 分 布 的 ,同时 存在 从 下 面 0 点 进行 删 失 ,那么 OLS 斜率 参数 收敛 
到 pp 信 的 真实 斜率 参数 ,其 中 ,p 表示 具有 正 值 样本 部 分 。 这 些 条 件 是 约束 性 的 ， 
但 鲁 德 (Ruud，1986) 却 稍微 放松 了 约束 性 。 在 实际 应 用 中 ,车 Tobit 模型 是 适宜 
的 ,这 种 成 比例 结果 提供 了 对 OLS 非 一 致 性 的 良好 经 验 近似 。 

类 似 地 ,具有 截 尾 的 回归 线 比 未 截 尾 回 归 线 更 为 平坦 。 戈 德 伯 格 (Goldber- 
ger，1981) 得 到 了 类似 于 删 失 情况 的 解析 结果 。 如 果 y 与 x 是 联合 正 态 分 布 的 , 且 
存在 从 下 面 0 点 进行 的 删 失 ,那么 OLS 斜率 参数 收敛 到 真实 参数 的 倍数 。 此 倍数 
位 于 0 与 1 之 间 , 其 表达 式 相 当 宛 长 。 同 时 ,其 收缩 程度 与 所 有 和 斜率 系数 一 样 。 因 
此 , 稚 尾 OLS 低估 了 真实 斜率 参数 的 绝对 数值 。 


16. 3.7 Tobit 模型 的 度 定 检验 


因 Tobit 模型 具有 脆弱 性 ,一 种 好 的 实用 做 法 是 ,检验 分 布 是 否 被 错误 设 定 。 
存在 四 种 广泛 策略 。 

第 一 种 方法 是 ,在 参数 较为 丰富 的 模型 里 面 伐 套 Tobit 模型 ,并 应 用 沃 尔 德 、 
LR 或 LM 检验 。 由 于 堆 假 设 模型 即 Tobit 模型 是 最 容易 进行 估计 的 ,自然 是 运用 
LM 检验 。 尤 其 是 ,对 删 失 回 归 模 型 中 形式 为 一 exp(xiar ) 的 异 方差 性 可 直接 进 
行 检 验 。 一 旦 利用 LM 检验 的 形式 (参见 7. 3. 5 节 ) ,我 们 计算 N 次 来 自 1 对 5 与 
sz2; 的 辅助 回归 的 非 中 心 民 : ;其 中 ,f= 二 f(y; 1x ,Ga ) 表 示 由 式 (16. 14) 给 出 的 密 
度 , 只 是 要 用 exp(x a ) 代 替 o, 关 于 s1; 一 91n f;/936 与 ss 一 gln f;/9a 的 表达 式 均 可 
通过 对 式 (16. 16) 中 的 表达 式 稍微 修改 来 获得 ,而 “一 ”表示 在 带 有 a 的 所 有 分 量 的 
删 失 Tobit MLE 处 的 计算 值 , 除 了 截 距 等 于 0 之 外 。 对 正 态 分 布 误差 的 假设 进行 
检验 的 类 似 方法 更 加 困难 一 些 , 因 为 不 存在 正 态 的 标准 一 般 化 。 

第 二 种 方法 是 使 用 并 不 需要 对 备 择 假设 模型 设 定 的 条 件 矩 检验 (参见 8. 2 
矿 )。 特 别 地 ,关于 删 失 Tobit MLE 的 一 阶 条 件 (16. 16) ,建议 基于 广义 残 差 : 
yi—xiB 


:—d; 
jy (1—®D,) 





的 条 件 矩 检验 。 知 Tobit 模型 得 以 正确 设 定 , 则 ELe |x;j] 二 0, 因 为 正规 条 件 蕴含 
ELaln f(y;)/93B1= 二 0。 于 是 ,我 们 可 利用 N716;z; 实施 Ho。: ELez] 一 0 与 万.: 
ELez] 尖 0 检验 ,其 中 ,e; 一 e; 表示 在 Tobit MLE( B,6) 处 计算 。 由 8. 2.2 节 , 这 种 
检验 可 通过 计算 NN 次 来 自 1 对 6zi、$i; 以 及 52; 的 辅助 回归 的 未 中 心 R? ,其 中 ， 
fi 二 f(yi|Xi,B,o ) 表 示 由 式 (16. 14) 给 出 的 密度 ,而 由 式 (16. 16) 给 出 的 s1; 二 
aln fi/96B 与 s2: 一 91n f;/90 ,表示 在 (B,6) 处 的 计算 值 。z; 变量 可 能 是 变量 但 不 
是 ,在 此 情况 下 ,该 检验 能 被 解释 成 对 省 略 回 归 或 xx 分 量 究 的 检验 。 基 于 较 高 
阶 定 的 条 件 矩 检验 同样 可 以 得 到 发 展 。 有 关 详 细 内 容 , 参 见 切 售 和 区 里 什 人 Chesher 
and Irish，1987) 以 及 帕 甘 和 维 拉 (Pagan and Vella，1989) 。 

第 三 种 方法 是 ,将 为 右 删 失 持续 期 限 数据 而 发 展 起 来 的 某 些 诊断 与 检验 方法 
(参见 第 19 章 ) ,改写 成 左 删 失 正 态 分 布 数据 的 情形 。 
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最 后 一 种 方法 是 ,把 8 的 可 供 选择 估计 值 与 Tobit MLE 进行 对 比 ,这 里 可 
供 选 择 的 8 估计 值 可 以 是 16. 9 节 阅 述 的 著名 半 参 数 估 计 值 ,在 较 弱 分 布 假设 下 ， 
它 是 一 致 的 。 

对 于 进一步 详细 内 容 , 参 见 帕 甘 和 维 拉 (Pagan and Vella，1989)。 他 们 站 述 
了 了 带 有 茶 种 应 用 的 理论 , 而 梅 伦 伯 格 和 范 。 索 斯 特 (Melenberg and Van Soest， 
1996) 提 供 了 更 完整 的 应 用 。 这 两 篇 论文 考察 了 除 那 些 Tobit 模型 之 外 的 较为 丰 
富 的 样本 选择 模型 的 设 乍 (参见 16. 5 节 )。 


16. 4 两 部 分 模型 


前 面 关 于 删 失 数据 的 一 些 模型 , 均 将 删 失 机 制 限 制 成 与 生成 结果 变量 一 样 的 
模型 。 更 一 般 地 , 删 失 机 制 与 结果 可 利用 独立 的 过 程 进 行 建 模 。 例 如 ,在 解释 个 体 
每 年 度 医疗 费用 文 出 时 ,第 一 种 过 程 可 决定 住院 治疗 , 而 第 二 种 过 程 可 解释 后 来 的 
医疗 费用 支出 。 要 求 两 种 独立 机 制 的 情况 是 强 的 ,如 果 存 在 原因 使 人 不 得 不 认为 ， 
与 较 简 单 模型 相 比 , 某 种 实现 值 会 以 很 大 频率 或 者 很 小 频率 发 生 。 例 如 ,与 同 泊 松 
分 布 相 一 致 的 情况 相 比 ,人 们 可 能 观测 到 更 多 的 0。 允 许 0 与 非 0 由 不 同 密度 生成 
的 两 部 分 模型 (two-part model) 却 增加 了 灵活 性 。 实 际 上 ,这 是 混合 模型 的 特定 
类 型 


16. 4. 1 两 部 分 模型 


设 具 有 完全 可 观测 结果 的 个 体 为 所 研究 活动 的 参与 者 (participant)。 定 义 一 
个 二 值 指示 变量 4, 对 于 参与 者 有 d= 二 1, 而 对 于 非 参 与 者 有 4d 一 0。 假定 对 于 参与 
者 y>>0 是 可 观测 的 ,而 对 于 非 参 与 者 d=0 是 可 观测 的 。 对 于 非 参 与 者 ,我们 只 能 
观测 到 PrL d= 二 0]。 对 于 参与 者 ,就 某 个 选取 的 密度 f(，) 而 言 ,给 定 y 盖 0 时 的 条 件 
密度 被 设 定 成 f( yd 二 1)。 于 是 ,两 部 分 模型 由 : 

Pr| d=0|x|, 当 y 一 0 
FOF perac1lxd /feoylad=1, sa， 当心 0 2 
给 出 。 

此 模型 是 由 克拉 格 (Cragg，1971) 详 细 曾 述 作 为 对 Tobit 模型 的 一 般 化 , 它 可 
镍 表述 成 式 (16. 27) 的 一 种 特殊 情况 。 参 与 决策 d 的 明显 模型 是 probit 模型 或 
logit 模型 。 潜 变量 公式 是 , 当 T=x 8 十 e 大 于 0 时 ,d= 二 1, 而 且 该 模型 可 被 看 成 是 
一 种 围栏 模型 (hurdle model) ,因为 越过 围绕 栏 或 门限 就 变 为 参与 者 。 为 了 确保 参 
与 者 的 正 值 ,密度 f(yld= 二 1, x) 应 是 正 值 随机 变量 ,诸如 对 数 正 态 或 合适 密度 , 例 
如 ,从 下 面 0 点 正 态 截 尾 。 

为 了 简单 起 见 ,通常 两 部 分 模型 均 会 出 现 相 同 回 归 元 ,但 这 可 以 被 放松 ,倘若 
存在 明显 的 排除 性 约束 ,就 应 该 得 到 放松 。 可 直接 实施 极 大 似 然 估 计 , 因为 它 分 割 
成 两 种 情形 :利用 所 有 观测 值 对 离散 选择 模型 进行 估计 ,以 及 利用 只 满足 y 二 0 的 
观测 值 对 密度 F(y|d 王 1，x) 参 数 进行 估计 。 
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16. 4. 2 丙 部 分 模型 例子 


端 等 人 (Duan et al. , 1983) 利 用 源 自 兰 德 健 康 保险 实验 的 数据 ,阐述 了 这 种 模 
型 对 预测 医疗 支出 的 重要 应 用 。 他 们 将 一 年 期 间 是 否 有 任何 医疗 支出 设 定 成 
probit 模型 ,因此 PrLd 二 1|xj 二 @(xi 1) ,而 将 给 定 某 些 支 出 的 医疗 设 定 成 对 数 正 
态 模 型 ,因而 ln y|d 王 1,x ~~MLxz Bz ,02]。 于 是 ,关于 整个 总 体 的 期 望 医疗 支出 由 


El yl|x]= B(xi 1)explo’ /2+xz OB, | (16. 28) 


给 出 ,其 中 第 二 项 使 用 了 下 述 结果 :如 果 lny ~NMlLxuso ,那么 Ely | 二 exp(4,o /2)。 
毛 拉 (Mullahy，1998) 以 更 详细 的 方式 考察 了 此 类 再 变换 。 

就 计数 数据 建 模 而 言 ,两 部 分 模型 特别 流行 。 例 如 ,对 医生 出 诊 次 数 建 模 , 存 
在 一 种 模型 决定 病人 是 否 看 医生 ,而 第 二 个 模型 决定 那些 至 少 已 有 一 次 看 医生 的 
病人 后 来 看 医生 次 数 。 然 后 ,PrLd 王 1 被 设 定 成 油 松 变量 或 负 二 项 变量 大 于 0 的 
概率 ,而 密度 f(y|aq 二 1) 被 设 定 成 从 下 面 0 点 截 尾 的 泊 松 密度 或 负 二 项 密度 。 在 
计数 文献 中 ,归功 于 毛 拉 (Mullahy，1986) 的 这 个 模型 称 为 围栏 模型 ,将 在 20. 4.5 
节 中 详 述 。 

对 于 连续 数据 ,两 部 分 模型 可 用 于 含有 过 剩 0 的 文 出 模型 (克拉 格 的 最 初 动 
机 ) 。 一 种 可 供 选 择 的 样本 选择 模型 在 下 一 下 阐述 。 


16.5 样本 选择 模型 


在 许多 设置 背景 下 都 能 产生 样本 选择 ,从 而 存在 许多 样本 选择 模型 。 在 关注 
由 赫 克 曼 (Heckman，1979) 所 研究 的 二 变量 样本 选择 模型 (bivariate sample selec- 
tion model) 重要 例子 之 前 ,本 节 以 对 样本 选择 的 一 般 讨 论 开 始 。 男 一 个 重要 例子 
即 罗 伊 模型 (Roy medel 将 单独 在 16. 7 节 加 以 研究 。 


16. 5. 1 样 杰 选 择 模型 


观测 研究 极 少 建 立 在 纯 随 机 样本 上 。 更 经 常 的 方式 是 使 用 外 生 抽 样 ( 参 见 
3. 2. 4 节 ) ,同时 利用 通常 估计 量 。 不 过 , 若 样本 被 有 意 或 无 意 地 部 分 建立 在 插 信 
因 变 量 取 值 的 基础 上 , 则 参数 估计 可 能 是 非 一 致 的 ,除非 采用 修正 测量 。 这 类 样本 
被 广泛 定义 成 选择 样本 (selection samples)。。 

由 于 存在 许多 方法 生成 选择 样本 ,所 以 存在 众多 选择 模型 (selection medels ) 。 
实际 上 ,最 容易 被 忽视 的 是 ,运用 了 选择 样本 。 例 如 ,考察 当 参 与 测验 是 目 愿 的 时 
候 ,一 段 时 期 成 绩 测验 例如 SAT 的 平均 分 解释 。 最 后 时 期 可 能 归 因 于 大 学 后 知识 
的 真实 遗忘 。 不 过 , 它 或 许 刚好 反映 出 选择 效应 :相对 多 的 大 学 生 参 加 一 段 时 期 测 
验 ,而 新 测验 接收 者 则 是 相对 很 少 的 大 学 生 。 

选择 可 能 归 因 于 自选 择 (self-selection) , 即 关注 结果 部 分 地 由 个 体 是 否 选 择 参 
与 到 关注 活动 中 而 决定 。 它 也 可 能 起 因 于 样本 选择 (sample selection) , 即 那些 参与 
到 关注 活动 中 的 个 体 者 被 故意 过 度 抽样 一 一 极端 情况 是 只 抽取 参与 者 。 在 上 述 两 
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Tm" -0 


种 情况 下 ,其 中 任何 一 种 都 会 出 现 类 似 问题 ,选择 模型 通常 被 称 为 样本 选择 模型 。 

本 章 闻 述 文 献 中 众多 选择 模型 中 的 三 种 类 型 。 一 种 最 简单 的 模型 是 已 在 
16. 3 市 阐明 的 Tobit 模型 。 一 种 普遍 使 用 的 典型 模型 ,我 们 称 之 为 二 变量 样本 选 
择 模 型 ,将 在 本 节余 下 部 分 加 以 阐述 。 通 过 引入 不 同 于 潜 变 量 生 成 关注 结果 的 删 
失 潜 变量 ,此 种 模型 对 Tobit 模型 加 以 推广 。 另 一 种 流行 的 模型 称 为 罗 伊 模型 ,将 
在 16.7 节 曾 述 。 该 模型 考察 两 个 取 值 之 一 的 结果 ,这 样 做 要 依赖 于 由 删 失 随机 变 
量 所 采用 的 伍 。 这 些 模型 分 别 对 应 于 雨 官 (Amemiya，1985 ,第 384 页 ) 的 Tobit 模 
型 中 第 1 .2、5 类 型 。 

在 以 不 可 观测 因素 为 基础 的 样本 选择 情况 下 ,一 致 估计 依赖 于 相对 强 分 布 假 
设 , 甚 至 在 半 参 数 佑 计 下 也 是 如 此 。 于 是 ,实验 数据 研究 提供 了 一 种 可 供 选 择 的 引 
人 注目 的 方法 ,因为 选择 问题 可 通过 随机 指派 加 以 避免 。 不 过 ,在 经 济 应 用 中 ,出 
于 成 本 及 道德 原因 ,很 难 实施 实验 。 第 25 章 将 详 述 的 处 理 效应 方法 试图 将 实验 方 
法 用 于 观测 数据 。 


16. 5. 2 一 变量 梓 本 化 树 模型 (Tobit 模型 第 2 类) 


设 y; 表示 关注 的 结果 。 在 标准 截 尾 Tobit 模型 中 , 当 内 盖 0 时 ,该 结果 是 可 
观测 的 。 玩 一 般 的 模型 更 要 引入 不 同 的 潜 变 量 y7 ,并 且 当 y? 盖 0 时 ,此 结果 y; 
是 可 观测 的 。 例 如 ,yi 决定 是 否 去 工作 ,而 y; 决定 工作 多 少 个 小 时 ,同时 y? 天 
yz ，; 因 为 去 工作 存在 固定 成 本 ,诸如 交通 成 本 ,而 一 旦 去 工作 ,交通 成 本 在 确定 参 
加 工作 与 否 方面 比 工作 多 少 个 小 时 更 为 重要 ， 

一 变量 样本 选择 模型 (bivariate sample selection model) 包括 参与 方程 (partici-~ 
pation equation) , |]. 


-1 人 (16. 29) 
| 0， 当 y7 二 0 | 
以 及 相应 的 结果 方程 (participation equation): 
72， 当 yr 二 0 
y -> (16. 30) 
一 ， 当 yi :0 


这 个 模型 设 定 , 当 y? 放 0 时 ,ys 是 可 观测 的 ,而 当 y? 二 0 时 ,yz 不 需要 取 任 何 有 意 
义 的 值 。 其 标准 模型 设 定 成 线性 模型 带 有 潜 变 量 的 可 加 误差 形式 ,因而 : 
并 一 XI 十 el (16. 31) 
y? 一 X2 2 十 ss 
如 果 & 与 ez 是 相关 的 ,那么 估计 68; 时 便 会 出 现 问题 。 显 然 , Tobit 模型 是 yr 三 
y2 的 一 种 特殊 情况 。 

此 模型 并 不 存在 广泛 接受 的 称谓 。 替 克 曼 (Heckman，1979) 使 用 它 阐明 给 定 
样本 选择 时 的 估计 问题 。 这 一 模型 等 价 于 带 有 随机 门限 的 Tobit 模型 1[ 纳 尔 了 
(Nelson，1977)]。 假 定 当 yz 过世 时 ,我 们 可 观测 到 y ,其 中 ,yz 如 同 式 (16. 31) 
所 定义 的 ,同时 门限 是 L* ==z 十 而 不 是 16. 3 节 中 的 L* 二 0。 于 是 ,等 价 地 当 
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yr 之 0 时 ,我 们 可 观测 到 y> ,其 中 ,1 一 ye 一 上 一 (x2 0G。 一 ZY) 十 (gz 一 乙 ) 一 xl 十 
el, XI 表示 X2 与 £ 的 并 ， 同时 es 与 el 培 以 明显 方式 加 以 定义 。 雨 官 (Amemiya， 
1985 ,第 384 页 ) 称 此 模型 为 Tobit 模型 第 二 类 。 伍 德里 奇 (Wooldridge，2002 ,第 
506 页 ) 将 此 模型 称 为 含有 probit 选择 方程 的 Tobit 模型 。 尽 管 存在 如 此 之 多 的 这 
类 模型 ,但 其 他 一 些 学 者 则 称 此 模型 为 广义 模型 或 样本 选择 模型 。 

给 定 另 一 个 假设 :相关 误差 服从 联合 正 态 分 布 且 同方 差 , 并 满足 ; 


El 0 ] alz 
-ML a 
则 可 通过 ML 直接 进行 估计 。 至 于 14. 4. 1 节 的 probit 模型 ,由 于 y; 的 唯一 符号 
是 可 观测 的 ,所 以 可 使 用 正规 化 oi 二 1。 

已 知 式 (16. 29) 与 式 (16. 30) ,对 于 y? 盖 0, 我 们 以 下 述 概率 可 以 观测 到 y; ,此 
概率 等 于 y? >0 的 概率 乘 以 给 定 y? >0 时 和 允 的 条 件 概率 。 因 而 ,对 于 正 的 y;， 
可 观测 的 密度 为 广 ( 史 | 并 >0)XPrLy 六 0]。 对 于 兴 科 0, 可 观测 的 所 有 内 容 是 
这 个 事件 发 生 , 而 且 密 度 是 这 一 事件 发 生 的 概率 。 因 此 ,二 变量 样本 选择 模型 具有 
似 然 陋 数 ， 


L = [I] {PrLyi, 0} > {f(y [yi > 0) XPrlyi > 01}” (16.33) 
:一 ] 


其 中 , 当 yi; 三 0 时 第 一 项 表示 离散 分 布 ,从 而 y1; 一 0, 而 当 yi 之 0 时 第 二 项 表示 连 
续 分 布 。 这 一 似 然 函数 可 应 用 于 相当 一 般 模 型 ,而 不 只 是 售 有 联合 正 态 误差 的 线 
性 模型 。 

对 含有 联合 正 态 误差 的 线性 模型 进行 专门 化 研究 ,会 得 到 作为 正 态 的 二 变量 
密度 了 f(y? ，y2 ) ,导致 第 二 项 中 的 条 件 密度 成 为 单 变量 正 态 的 ,而 且 很 容易 加 以 
处 理 。 雨 官 (Amemiya, 1985, 第 385 一 387 页 ) 曾 经 提供 详细 内 容 , 包括 似 然 困 数 
的 准确 形式 。 

这 种 模型 的 早期 经 典 应 用 是 劳动 力 供给 ,其 中 ,yr? 表示 不 可 观测 的 意愿 或 者 
工作 倾向 ,而 y 表示 实际 工作 小 时 。 与 14. 2. 1 节 中 需要 工作 “意愿 ”小 时 技巧 的 
Tobit 模型 相 比 ,此 模型 在 概念 上 对 劳动 力 供 给 更 具有 吸引 力 。 这 种 典型 应 用 会 具 
有 以 下 复杂 情况 , 即 对 于 那些 不 参加 工作 的 个 体 来 说 ,重要 回归 元 即 工 资 报价 的 数 
据 出 现 缺 失 。 于 是 ,严格 地 说 ,尽管 该 模型 不 只 是 二 变量 样本 选择 模型 ,但 其 复杂 
情况 可 通过 添加 工资 报价 方程 ,并 代 和 人 其 中 来 加 以 应 对 。 关 于 对 劳动 力 供给 的 出 
色 应 用 的 内 容 , 参 见 姆 罗 获 (Mroz，1987) 。 


16. S.3 二 变量 样本 选择 模型 的 条 件 均 值 


在 本 节 , 我 们 要 获得 二 变量 样本 选择 模型 的 条 件 截 尾 均 值 。 它 跟 xzB; 不 一 
样 ,因而 yz 对 xs 的 OLS 回归 会 导致 非 一 致 参数 佑 计 。 不 过 ,条 件 均值 表达 式 却 能 
用 于 激发 一 种 可 供 选 择 的 估计 方法 ,与 MLE 所 需要 的 分 布 假设 相 比 ,该 方法 依赖 
于 较 弦 分 布 假设 。 这 将 在 下 一 节 给 出 。 

我 们 考察 样本 选择 模型 中 的 截 尾 均 值 ,这 里 只 有 y 的 正 值 可 以 利用 。 通 常 ， 
这 是 : 
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ELys | xyyr >0]=E[x 9: 十 es |xiB1 +e >0] (16. 34) 
一 X2 9。 十 Ele; |e; 记 一 x161 


其 中 ,x 表示 XI -可 Xz 的 并 。 如 果 误 差 sl 与 ez 是 独立 的 ， 那么 最 后 一 项 简化 成 
ELez 一 0, 同时 ys 对 xz 的 OLS 回归 将 会 得 出 B; 的 一 致 估计 。 然 而 ,两 个 误差 项 
之 间 的 任何 相关 性 意味 着 截 尾 均值 不 再 是 xz 6B; ,可 是 我 们 需要 对 选择 加 以 解释 。 
当 & 与 ez 是 相关 的 时 ,为 了 获得 Ele: |e 放 一 XB1j, 区 克 曼 (Heckman， 
1979) 注 意 到 , 符 式 (16. 31) 中 的 误差 (el ，sz) 如 同 式 (16. 32) 一 样 是 联合 正 态 的 , 则 
下 述 式 (16. 36) 蕴 含 
se 一 0l2El 十 人 (16. 35 ) 


其 中 ,随机 变量 £ 与 6 是 独立 的 。 为 了 得 出 这 个 结果 ,注意 ,通常 联合 正 态 分 布 : 
Ned ls sl 
蕴含 着 条 件 正 态 分 布 : 


Z2 | Zi 一 AL 十 Sy ph 《Zi — M1 ) , 22 — EB > | 
该 结果 意味 着 : 
Z2 一 1 EB (zn) 十 下 (16. 36 ) 


其 中 ,< 一 ML0,3w 一 Zo131 Yi 与 z 是 独立 的 。 对 于 由 式 (16. 32) 给 出 的 联合 密 
度 ,我 们 具有 纯 量 形式 二 二 0 且 o? 一 1, 所 以 式 (16. 36) 专 门 化 为 式 (16. 35) 。 
通过 利用 式 (16. 35) , 截 尾 (16. 34) 变 成 
EL y; | X,Yy” >0]=x 6; 十 E| (ge 十 EE) lal>—x161] 
一 xz 0， 十 gsE | e， |e 记 一 X11 


其 中 ,我 们 使 用 了 & 与 ei 的 独立 性 。 选 择 项 类 似 于 较 简 单 的 Tobit 模型 中 的 情况 ， 
而 且 再 一 次 使 用 命题 16. 1 中 的 ELz|z 盖 一 cj 的 表达 式 , 我 们 得 到 : 


E|[ ys |x, yr >0]=x 8B; 二 gsACXI DG ) (16. 37) 


其 中 ,A(z) 二 8g(z)/B(z), 并 且 我 们 使 用 了 oi 二 1。 类 似 地 ,命题 16. 1(ii) 会 得 出 截 
尾 方 法 : 
V[ |x,y* >0|=o?—o?,A(Xi Bi) (xi BAX 1)) (16. 38) 


当 y? 二 0 时 ,前 面 分 析 没 有 设 定 值 。 在 一 些 应 用 中 , 当 yi 二 0 时 ,ys 可 能 等 于 
0。 于 是 ,考察 删 失 均值 有 意义 。 把 可 观测 的 y; 和 不 可 观测 的 yy 及 y2 作为 条 
件 ,然后 进行 无 条 件 化 处 理 , 得 到 : 
ELyz|x|=E,* ELyz|x,y? | (16. 39) 
=Pr[ yi? <0lx)Xo0+Pri yr >0)xXEl yz |x,yr >0] 
—0 二 @®@(xi 1) {xz Bz to2A(xXi 01)) 
=B(xiO1) x :to gx OB1) 
其 中 ,第 三 行使 用 式 (16. 37) ,而 最 后 一 行使 用 X(z) 一 $C(z)/ 思 (xz)。 可 以 证 明 , 删 失 
方差 是 异 方差 的 。 
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16. 5.4 基 克 曼 历 步 侍 红 量 


yz 对 xz 的 OLS 回归 仅仅 利用 了 可 观测 的 正 值 , 这 个 重要 的 结果 会 导致 8 
的 非 一 致 估计 ,除非 误差 是 无 关 的 ,因而 o1; 二 0。 很 明显 ,由 截 尾 均 值 公式 (16. 37) 
知 , 这 里 还 包括 了 “回归 元 "(x1B1)。 
赫 克 曼 两 步 法 (Heckman's two-step procedure) 有 时 称 为 Heckit 估计 量 , 它 借 
助 于 省 略 回归 元 和 (x1B1) 的 估计 和 值 增 大 OLS 回归 。 因 而 ,利用 yz 的 正 值 ,通过 
OLS 对 模型 
2 — X22 +or2A(Xiil ) + (16. 40) 


进行 估计 ,其 中 ,vw 表示 误差 项 , 和 可 通过 对 的 第 一 步 回归 来 获得 , 因为 
Pr[y? 之 0] 二 B(x1B1), 而 Axi 人 BG) 二 (Xi [BR)/@®@(xi Bi) 表示 估计 的 道 米尔 斯 比值 
该 回归 没有 直接 提供 oz 的 估计 值 ,但 截 尾 方差 公式 (16. 38) 产 生 了 6 二 NN '2;X 
[十 G63.A; (Xi 局 十 A)j 估 计 值 ,其 中 ,5 源 自 式 (16. 40) 的 OLS 残 差 ,而 多 二 
AGOxi Bi1)。 然 后 , 式 (16. 32) 中 的 两 个 误差 之 间 的 相关 性 可 通过 6 一 61;/64 得 到 估计 。 

对 oz 一 0 或 o 一 0 是 否 成 立 进行 检验 ,就 是 对 误差 是 否 相 关 进 行 检 验 , 而 且 需 
要 样本 选择 相关 性 。 这 类 检验 是 建立 在 51; 基 础 上 的 沃 尔 德 检验 ,651 表示 道 米 尔 斯 
比 的 估计 系数 。 

重要 的 是 注意 到 ,由 回归 (16. 40) 报 告 的 通常 OLS 标准 误差 是 不 正确 的 , 异 方 
差 稳健 标准 误差 也 是 不 正确 的 。 标 准 误差 正确 公式 考虑 到 了 两 阶段 回归 中 的 两 个 
复杂 情况 。 第 一 ,即使 8; 是 已 知 的 ,但 式 (16. 40) 中 的 误差 是 源 自 式 (16. 38) 的 异 
方差 。 第 二 ,实际 上 ,Bi 可 用 其 估计 值 来 代替 ,对 于 较 简 单 的 Tobit 模型 ,6. 6 节 也 
研究 了 复杂 情况 ,而 16. 10. 2 节 则 进行 了 分 析 。 正 确 标 准 误 差 公 式 是 由 赫 克 晕 
(Heckman，1979) 给 出 的 ;还 可 参 风 格林 (Greene，1981)。16, 10. 2 节 推 导出 较 简 
单 Tobit 模型 的 这 些 公 式 。 实 施 起 来 并 不 简单 ,因而 最 好 是 使 用 可 以 自助 处 理 这 
种 复杂 情况 的 软件 包 或 运用 自助 法 。 

所 得 到 的 Bs 佑 计量 是 一 致 的 。 在 误差 联合 正 态 性 下 ,与 MLE 相 比 ,虽然 有 
效 性 损失 是 相当 大 的 ,可 是 因为 下 述 原 因 , 该 估计 量 颇 为 流行 : (1) 它 实 施 起 来 简 
单 ;(2) 此 方法 适用 于 一 系列 的 选择 模型 ,包括 由 16. 7 节 给 出 的 那些 模型 ;(3) 该 
估计 量 需 要 比 sl 与 ez 联合 正 态 性 更 弱 的 分 布 假设 ; (4) 为 了 进一步 允许 如 同 16. 9 
节 一 样 的 半 参 数 估计 ,甚至 可 对 这 些 分 布 假 设 加 以 削弱 。 

所 需要 的 关键 假设 (key assumption) 是 式 (16. 35) ,本 质 上 有 


sz C—Oel 十 (16. 41 ) 


其 中 ,与 si 是 独立 的 。 这 看 起 来 是 相当 合理 的 。 在 耐用 品 文 出 情 次 下 , 比如 说 ， 
该 式 表 明文 出 方程 式 中 的 误差 是 购买 决策 方程 中 误差 的 多 倍 , 加 上 与 购买 决策 独 
立 的 某 个 噪声 ;实质 上 为 关于 误差 的 线性 回归 模型 。 已 知 假设 (16. 41) ,条件 均值 
(16. 34) 变 成 : 


E[ y; |y? >0]=x/; toE[Le |e>—x 0] (16. 42) 
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若 s 服从 标准 正 态 分 布 , 则 这 会 产生 式 (16. 37) , 即 OLS 回归 (16. 40) 的 基础 。 

时 一 般 地 , 赫 元 曼 两 步 方法 能 用 于 含有 el 分 布 而 不 是 正 态 情形 的 式 (16. 42) 
例如 ,参见 奥 尔 生 (Olsen，1980)。 人 们 还 能 运用 不 施加 关于 Ele ls 二 一 MG 的 
胃 数 形式 的 半 参 数 方法 (参见 16. 9 节 )。 


16.$.$ 识别 考虑 


契 对 回归 元 没有 任何 约束 ,含有 正 态 误差 的 二 变量 样本 选择 模型 在 理论 上 是 
可 识别 的 。 特 别 地 ,完全 一 样 的 回归 元 能 出 现在 关于 y? 与 y; 的 方程 中 。 
然而 ,如果 使 用 完全 相同 的 回归 元 ,那么 具有 正 态 分 布 误 差 的 模型 接近 于 不 可 
识别 的 。 右 入 1 XX , 则 | El y; [yr >0 二 xz /32 十 a 十 bxz B1 , 一 且 利用 式 (16. 37) 与 源 
自 16. 3. 2 节 的 观测 值 , 逆 米 尔 斯 比 项 4(:) 在 它 的 自 变量 广泛 区 域 大 致 为 线性 的 。 
这 就 产生 显 而 多 见 的 多 重 共 线 性 问题 ,许多 文章 对 此 进行 了 讨论 ,包括 绳 田 
(Nawata,1993) 、 继 田 和 长 濑 (Nawata and Nagase,1996) ,以 及 深 和 余 (Leung and 
Yu，1996) 。 利 用 10. 4. 2 市 给 出 的 条 件数 ,可 以 发 现 多 重 共 线 性 ,由 式 (16. 40) 知 ， 
回归 元 是 x; 以 及 XA(xiB)。 对 于 不 同 观测 值 而 言 ,xi1B， 上 的 变异 较 大 时 , 则 问题 就 
不 算 严 重 ,也 就 是 说 , 较 好 的 probit 模型 能 在 参与 及 非 参 与 之 间 进 行 辨别 。 
赫 克 曼 两 步 法 的 一 些 半 参数 变形 (参见 16. 9. 3 节 ) 确 实 需 要 排除 性 约束 。 因 
此 ,具有 正 态 误差 的 二 变量 样本 选择 模型 的 识别 ,可 通过 了 肾 数 形式 假设 来 达到 。 
因而 ,应 用 中 ,对 二 变量 样本 选择 模型 加 以 估计 可 能 需要 参与 方程 (y;* ) 中 的 
至 少 一 个 回归 元 被 排除 在 结果 方程 (y2? ) 之 外 。 例 如 ,与 工作 小 时 数 无 关 的 工作 辕 
定 成 本 将 会 影响 到 是 否 工作 的 决策 ,但 不 会 影响 工作 小 时 数 。 如 辣 许多 应 用 一 样 ， 
比如 16. 6 节 , 这 是 一 个 很 大 的 局 限 性 ,做 出 保护 性 的 排除 约束 是 相当 难 的 。 


16. S.6 记 奈 新 应 


二 变量 样本 选择 模型 的 边际 效应 会 依照 我 们 是 否 考虑 潜 变 量 均 值 或 由 式 
(16. 37) 给 出 的 截 尾 均 值 或 者 删 失 均值 (如 果 它 是 合适 的 ) 而 变化 。 

将 x 定义 成 由 xi 与 xz 的 并 形成 的 一 个 向 量 ,同时 将 x1Bi 重新 写成 x Yi ;而 将 
x2 32 重新 与 成 x yz, 这样 做 会 很 方便 。 例如 , 规 尾 均值 变 成 E| ys | xj 一 X yy 十 
O12A(X Yi ) 。 注意 到 , 如 肤 XI Xo ,那么 ~ 与 /或 将 拥有 某 些 零 元 杂 。 对 进行 微 
分 ,得 到 删 失 : 


未 删 失 ， 9E[ y: |x]/ax 一 ~ (16. 43) 
截 尾 (在 0 点 ): 9E[ ys [X,Y 一 1 |/9x—= ~Y; —o2A(X YI ) (x Yi 十 和 CK ) ) 
删 失 (在 0 点): 9FL y; |x|/9x— ~ bX )X 3 二 B(xX Yi ) ~Y2 一 Gil2X Yi $xX 了 | ) 人 


其 中 ,A(z) 二 $8(z)/(z), 并 且 我 们 使 用 938(z)/9z 王 一 zg(z), 以 及 9ACz)7/az 一 
一 z$(z) /D(z) $2) /Bz) 一 一 A(z)(z 十 4(z))。 对 这 三 个 导数 的 解释 ,可 类 似 
于 16. 3. 5 节 以 某 种 详细 方式 所 做 出 的 讨论 。 如 同 已 经 提 及 的 , 当 yi 一 0, 只 有 3 
取 0 值 时 , 才 适 合 于 进行 删 失 均值 的 分 析 。 在 一 些 应 用 中 ,请 如 稍 后 将 要 讨论 的 健 
康 支 出 的 自然 对 数 , 没 有 删 失 均值 。 
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16. 5.7 依 可 观测 因 于 与 不 可 观测 因 豆 的 侈 择 


存在 如 下 一 些 建 模 情形 :将 建 模 考虑 成 两 部 分 决策 问题 :首先 是 参加 活动 , 然 
后 决定 活动 的 水 平 。 这 些 决 策 缠绕 在 一 起 ,同时 可 认为 是 依赖 于 共同 因素 。 此 类 
数据 的 一 个 目 然 模型 是 ,二 变量 选择 模型 (16. 29) 一 (16. 31)。 

在 一 些 情 况 下 ,包括 回归 元 以 后 ,两 个 过 程 中 任何 剩 下 的 误差 (ei 与 ez ) 是 不 相 
关 的 。 例 如 ,对 于 住院 治疗 模型 ,可 能 会 是 在 一 旦 控制 了 观测 个 体 特征 ,诸如 健康 
状况 后 ,在 决定 入 院 医 治 方程 的 误差 与 沁 定 住院 多 久 方 程 的 误差 之 间 不 存在 相关 
性 。 在 那 种 情况 下 ,可 直接 进行 分 析 , 因为 选择 仅仅 是 建立 在 可 观测 因素 的 基础 
上 ,例如 当 os = 一 0 时 式 (16. 37) 可 以 简化 。 这 两 部 分 能 独自 建 模 , 同时 使 用 16. 4 节 
中 较 人 简单 的 两 部 分 模型 。 

在 另外 一 些 情况 下 ,甚至 包括 回归 元 以 后 ,误差 可 能 是 相当 的 。 例 如 ,在 劳动 
力 供给 中 ,促使 某 大 可 能 去 工作 的 不 可 观测 因素 ,也 可 能 导致 他 们 与 通过 可 观测 回 
归 元 所 预测 的 工作 小 时 数 相 比 , 可 能 工作 小 时 数 更 长 。 人 们 能 检验 误差 之 间 是 否 
存在 此 类 相关 。 关 存在 相关 , 则 选择 以 不 可 观测 因素 进行 ,从 而 本 章 的 方法 开始 发 
挥 作用 。 其 至 对 于 赫 殉 曼 欺 步 法 ,需要 相对 强 的 分 布 假设 ， 

由 端 等 人 (Duan et al. ，1983) 做 出 的 研究 已 在 16. 4.2 贡 概述 ,因为 运用 了 上 比 
样本 选择 模型 更 为 引 人 注 目的 两 部 分 模型 而 受到 批评 。 这 导致 了 激烈 的 争论 ,大 
多 数 有 关 文 章 均 列 在 染 和 余 (Leung and Yu，1993) 的 参考 文献 里 ,他 们 突出 了 首 
米尔 斯 比值 与 剩余 回归 元 之 间 潜 在 关系 的 重要 作用 。 

更 一 般 地 ,一 些 选 择 模 型 诸如 两 变量 选择 模型 , 既 允 许 依据 可 观测 因 和 又 选择 又 
允许 依据 不 可 观测 因素 选择 ,因为 它 既 依据 可 观测 回归 元 选择 ,又 依据 不 可 观测 误 
差 选择 。 就 依据 隐 性 可 观测 的 选择 而 言 ,更 简单 地 称 为 依据 不 可 测 因 素 选 择 (se- 
lection on unobservables) 的 模型 。 本 章 强 调 依 据 不 可 观测 因素 的 选择 。 

相反 ,如果 我 们 只 依据 可 观测 因素 选择 (selection on observables) ,那么 分 析 变 
得 更 为 简单 。 本 章 的 两 部 分 模型 就 是 一 个 例子 。 关 于 人 处理 评估 的 第 25 章 , 强 调 依 
据 可 观测 因素 的 选择 (参见 25. 3. 3 布 的 讨论 ), 同 时 详 述 了 诸如 倾 癌 得 分 匹配 方法 。 


16.6 选择 例子 :健康 支出 


为 曾 述 方便 ,我 们 使 用 源 自 兰 德 健康 保险 实验 (RHIE) 的 数据 。 市 选 数 据 来 自 
德 布 和 特 里 维 蒂 (Deb and Trivedi, 2002) ,他 们 对 去 看 内 科大 去 的 门诊 病人 数 以 及 
所 有 提供 者 进行 建 模 ,所 用 模型 为 计数 模型 。20. 3 节 归 纳 了 这 些 数据 ,而 20.7 节 
阐述 了 一 些 标准 计数 模型 的 估计 。 

然而 ,我 们 这 里 对 每 年 健康 支出 进行 建 模 。 回 归 元 与 表 20. 4 详细 定义 的 回归 
元 一 样 。 将 它们 分 成 健康 保险 变量 (LC，IDP，LPI 和 FMDE) .社会 经 济 特征 
(LINC, LFAM, AGF, FEMALE, CHILD, FEMCHILD, BLACK 和 EDUCDEC )， 
以 及 健康 状况 变量 (PHYSLIM，, NDISEASE, HLTHF 和 HLTHP)。 第 20 章 的 
分 析 使 用 4 年 的 数据 ,而 我 们 这 里 仅 使 用 2 年 的 数据 ,得 到 5 574 个 观测 值 ,并 概括 
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统计 量 , 这些 概括 统计 量 与 表 20. 4 给 出 的 那些 并 不 完全 一 样 。 

因 变 量 y 表示 年 度 个 体 健 康 支出 。 经 济 计量 模型 要 考虑 两 种 复杂 情况 :(1) 健 
康文 出 为 0 的 占 样本 23.2%;(2) 正 的 健康 支出 具有 非常 向 右 的 偏 斜 度 , 其 均值 为 
221 美元 ,该 什 远 远大 于 中 位 数 53 美元 。 对 数 变 换 可 噜 除 这 种 偏 斜 度 , 所 得 均值 
4. 07 接近 于 中 位 数 3. 96 ,从 而 偏 斜 度 位 于 24. 0 到 0.3。 其 峰 度 为 3. 29 ,接近 于 正 
态 值 3。 

我 们 关注 于 那些 正 医 疗 支 出 的 ln y 建 模 。 一 些 可 行 模型 包括 两 部 分 模型 ,对 
16. 4. 2 节 的 医疗 支出 对 数 以 及 二 变量 样本 选择 模型 (参见 16. 5. 2 节 ) 加 以 前 明 ， 
其 中 , 式 (16. 29) 中 的 yi 表示 正 支出 的 指示 变量 ,而 式 (16. 30) 中 的 yo 表示 ln y。 
注意 到 ,考察 当 y 二 0 时 ,yz 的 值 是 没有 意义 的 ,因为 In 0 没有 定义 。 两 部 分 模型 
是 满足 式 (16. 32) 中 oz 一 0 的 二 变量 样本 选择 模型 的 特殊 情况 。 

表 16. 1 给 出 健康 保险 变量 与 健康 状况 回归 元 的 一 些 结 果 。 为 了 简单 起 见 , 回 
归 中 同样 包含 的 社会 经 济 变 量 从 该 表 中 省 略 了 。 


表 16. 1 健康 支出 数据 :来 自 两 部 分 模型 与 选择 模型 


模型 两 部 分 选择 两 部 分 选择 MLE 
方程 DMED LNMED DMED LNMED DMED LNMED 
Lt 一 0. 119 一 0.016 一 0. 19 一 0. 028 一 0. 107 一 0.070 
《一 4. 41) 《一 人. 52 ) 《一 人 .41) 《一 0 70) (一 4.03) 《2. 25) 
IDP 一 0. 128 一 0. 079 一 0. 128 —0. 028 一 0. 109 一 0. 150 
(—2. 45) (—1.28) (—2. 45) (—0.70) (—2.13) (—2. 26) 
LPI 一 0. 028 0. 003 0. 028 0. 005 0. 029 0. 015 
(3. 19) 《0. 28) (3. 19) (0. 47 ) 《3. 42 ) (1. 42) 
FMDE 0. 008 —0.031 0. 008 一 0. 030 0. 001 一 0.024 
(0. 47) (—1.69) (0. 47) (—1.62) (0. 05) (1.21) 
PHYSLIM 0. 273 0. 262 0. 273 0. 281 0. 285 0. 355 
(3. 67) (3.81) (3. 67) (3. 50) (3. 94) (4. 70) 
NDISEASE 0. 022 0. 022 0. 022 0. 022 0. 021 0. 029 
(0. 25) (9. 78) (6. 25) 《4. 29) (6, 03) {7.54) 
HLTHG 0. 039 0. 144 0. 039 0. 147 0. 058 0. 156 
《0. 88 ) (2. 94) 《0. 88) (3. 01) (1. 35) (2. 99 ) 
HLTHF 0. 192 0. 364 0. 192 0. 382 0. 224 0. 445 
(2. 29) (4. 13) (2. 29) (3. 98) (2.75) (4.66) 
HLTHP 0. 640 OQ. 787 0. 640 0. 833 0. 798 0. 999 
(3. 01) (4. 63) (3.01) (4. 22) (3. 90) (5. 32) 
po 0. 000 0. 168 0.736 
G2 1. 401 1. 570 
0l12 一 020 0. 000 0. 236 1. 155 
C(O. 47) (16. 43) 
一 jnL 10 184. 1 10 170. 1 


"统计 量 位 于 插 号 中 。 网 归 元 还 包括 了 8 个 社会 经 济 特征 。DMED 表示 医疗 支出 是 否 为 正 的 指示 变 
量 , 而 LNMED 表示 支出 的 自然 对 数 ,假如 支出 为 正 的 话 。 两 步 选择 模型 的 第 二 步 上 统计 量 是 建立 在 以 下 误 
差 基 础 上 ,该 误差 对 用 于 获得 拟 合 逆 米 尔 斯 比值 项 的 第 一 步 加 以 校正 。 
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痛 先 ,我 们 将 两 部 分 模型 估计 值 与 二 变量 样本 选择 模型 的 两 步 估 计 值 加 以 比 
较 。DMED 方程 估计 值 ,与 通过 DMED 对 同样 回归 元 做 出 的 probit 回归 所 获得 的 
那些 但 一 样 。LNMED 方程 的 估计 值 就 不 同 , 因 为 关于 LNMED 的 两 步 样 本 选择 
的 回归 ,第 二 步 还 包括 了 道 米尔 斯 比率 项 回归 元 。 这 个 额外 项 是 统计 不 显著 的 
(一 0. 47), 且 数值 很 小 ,得 出 6 二 0. 168, 接 近 于 0。 因 此 ,两 个 模型 得 出 的 LNMED 
方程 系数 估计 值 相似 。 

正如 16. 4.4 节 所 提 及 的 ,当道 米尔 斯 比率 项 与 其 他 回归 元 高 度 相 关 时 ,两 步 
佑 计量 执行 效果 就 不 好 。 这 里 ,没有 出 现 这 种 情况 ,因为 probit 模型 预测 概率 存在 
范围 从 0. 15 到 0. 99, 且 在 第 二 阶段 中 第 二 阶段 回归 的 条 件数 目 ( 参 见 10. 4. 4 节 ) 
虽然 有 后 大 ,但 通过 包括 道 米尔 斯 比率 仅仅 增加 一 倍 , 即 从 37 到 82。 尽 管 人 们 拥 
有 某 些 排除 性 约束 仍然 是 更 可 取 的 ,但 在 此 应 用 中 ,DMED 中 的 哪些 回归 元 建立 
在 LNMED 方程 的 先 验 基 础 上 被 合理 地 排除 掉 并 不 清楚 。 

不 论 是 DMED 方程 ,还 是 LNMED 方程 ,二 变量 样本 选择 模型 的 ML 估计 值 ， 
截然 不 同 于 前 面 的 估计 值 。DMED 与 LNMED 的 潜 变 量 模型 中 的 误差 是 高 度 相 
关 的 ,估计 值 6 二 0.736, 这 是 非常 统计 显著 的 (二 16. 43)。ois (或 者 po) 的 两 步 估计 
值 与 ML 估计 值 之 间 的 巨大 差异 ,最 好 被 认为 是 ,显示 二 变量 样本 选择 模型 存在 问 
题 的 信号 。 对 和 零 假 设 一 一 估计 仁 具 有 相同 的 概率 极限 一 一 拒绝 ,可 利用 8. 4 节 给 
出 的 娶 斯 曼 检 验 , 能 被 解释 成 对 两 变量 选择 模型 从 两 步 估 计 到 ML 估计 所 需 的 另 
外 联合 正 态 性 假设 的 拒绝 。 不过, 或许 存在 更 为 基本 的 问题 ,满足 较 弱 假设 
(16.41) 导 sl iid 正 态 的 二 变量 样本 选择 模型 同样 是 不 合理 的 。 二 变量 样本 选择 模 
型 的 这 种 脆弱 性 并 不 异乎 寻常 ,尤其 是 如 果 该 模型 的 两 部 分 均 使 用 相同 回归 元 , 那 
么 通过 模型 设 定 假设 可 实现 识别 。 此 处 , 它 是 通过 利用 健康 支出 数据 合成 的 ,这 些 
支出 数据 具有 相当 大 的 离 群 值 "13(outliers), 因此 误差 可 能 不 是 正 态 的 ,即使 
LNEED 具有 接近 于 0 的 偶 斜 度 , 上 且 峰 度 接近 于 3, 正 如 已 经 提 及 的 ,对 异 方差 性 、 
仿 斜 度 以 及 峰 度 的 标准 检验 完全 拒绝 (zp 值 为 0.000 0) 零 假设 :LNMED 是 正 态 分 
布 的 。 / 

最 受 关 注 的 回归 元 是 LC, 即 共 保 险 率 的 自然 对 数 , 共 保险 率 是 由 病人 支付 投 
保 的 健康 成 本 百分比 形成 的 。 最 为 统计 显著 的 效应 是 决定 支出 是 否 为 正 的 ,而 不 
是 正文 出 的 大 小 。 看 所 有 观测 信 均 是 正 的 , 则 关于 LNMED 回归 中 的 LC 系数 等 
于 对 健康 保健 需求 的 价格 弹性 。 实 际 上 ,在 预测 支出 对 数 的 条 件 截 尾 均 值 的 价格 
变动 影响 时 ,我 们 要 求 控制 那些 支出 为 0 的 效应 ,如同 式 (16. 43) 的 第 二 行 一 样 。 

在 一 些 应 用 中 ,关注 内 容 在 于 预测 ,而 不 是 对 边际 效应 进行 估计 。 在 该 例子 
中 ,对 于 想 要 预测 支出 水 平 而 不 是 支出 对 数 , 这 是 复杂 情况 。 一 旦 假定 对 数 正 态 
性 ,两 部 分 模型 的 表示 是 由 式 (16. 28) 给 出 的 。 端 等 人 (Duan et al. ，1983) 痢 述 了 ， 
在 没有 对 数 正 态 假设 下 进行 预测 的 方法 ,可 看 成 是 自助 法 的 一 种 变形 。 也 可 参见 
毛 拉 (Mullahy，1998) 。 


【13 义 称 为 异常 值 。 一 一 去 者 注 
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16. 7 罗 伊 模型 


在 二 变量 样本 选择 模型 中 ,关于 个 体 的 因 变 量 可 能 是 不 可 观测 的 。 因 此 , 当 
yi 二 1 时 ,就 个 体 而 言 ,我 们 观测 到 2 ,但 当 yi 二 0 时 , 则 根本 观测 不 到 yz 。 在 本 
,我 们 考察 对 所 有 个 体 而 言 可 观测 到 y; 的 那 种 模型 ,但 只 为 两 种 可 能 状态 之 一 。 
此 类 重要 模型 强调 反 事 实 框架 (counterfactuals) ,并 与 第 25 章 曾 述 的 项 目 评估 文 
献 有 联系 。 


16. 7. 1 罗 伊 模型 


被 罗 伊 (Ray，1951) 经 常 引用 的 文章 ,对 当 个 体 技能 存在 异 质 性 以 及 个 体 寻 找 
职业 目 我 选择 时 工资 的 职业 分 布 结果 ( 既 有 均值 又 有 方差 ) 加 以 考察 。 尽 管 假 定 个 
体 工人 的 职业 产 出 在 没有 选择 的 条 件 下 是 对 数 正 态 的 ,同时 根本 不 考察 正式 模型 
的 估计 ,但 其 研究 相对 来 说 , 则 是 一 般 性 的 且 并 不 精准 。 在 20 世纪 70 年 代 , 许 多 
学 者 独立 提出 利用 横 截 面 数据 加 以 估计 的 类 似 情况 ,并 考察 既 依 据 可 观测 因素 选 
择 又 依据 不 可 观测 因素 选择 。 这 类 模型 即 为 着 名 的 罗 伊 模型 。 

我 们 将 原形 罗 伊 模型 (Roy model) 定 义 如 下 。 潜 变量 yr 决定 观测 到 的 结果 是 
否 是 y2 或 ys 。 具 体 地 讲 , 我 们 观测 到 yr 为 正 或 为 负 : 

]， 当 y* 守 0 
Yi1 -1 当 y* <O (16. 44) 
并 且 依 据 : 
y2， 当 yy 这 0 
y= 当 y* <0 (16. 45) 


“地 


准确 地 观测 到 yz 与 y3 之 一 。 
一 种 习惯 做 法 是 , 设 定 关于 潜 变 量 的 线性 模型 ,有 旦 具有 可 加 误差 ,满足 : 
y? —=x te (16. 46) 
2 ~ x 08; 十 es; 
y* —=x3 3 十 es 
具有 可 加 效应 的 模型 是 设 定 xs Bs 二 xz /Bz 十 a 形式 。 关 于 相关 误 关 的 最 简单 参数 模 
型 是 联合 正 态 的 ,满足 : 
0 
中 
0 


El 
E2 ~ A 

2 
3 O13 O23 U3 


如 同 以 往 一 样 ,只 有 yr? 的 符号 是 可 观测 时 , 才 使 用 正规 化 of 二 1，。 

对 数 似 然 函 数 类 似 于 16. 5 节 二 变量 样本 选择 模型 的 情况 ,只 是 现在 当 yi 志 0 
时 ,可 观测 到 y* ,因而 式 (16. 33) 中 的 项 PrL yx 志 0] 要 用 f(ys; | yt 声 0)Pr[L yi 志 0] 
代替 。 


l dl2 dl3 


(16. 47) 


O12 02 O23 
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信 计 模型 更 广泛 使 用 的 方法 ,是 把 赫 克 曼 两 步 方 法 用 于 截 尾 均值 ; 


El y|x, yr? >0]=x ;oA(xiB1) (16. 48) 
El y|x,y: <<0 |] 一 xs 6 二 gaA( 一 X11 ) 


其 中 ,XA(z) 一 $8(z)/ 思 (z), 而 且 我 们 使 用 of 二 1。 不 管 怎样 , y? 二 0 的 第 一 阶段 
probit 估计 会 得 出 B 的 估计 值 ,从 而 得 到 4(xi B33)。 于 是 ,两 个 独立 的 OLS 估计 
产生 了 了 (Bi, 0o12) 与 (Ba,， o13) 的 估计 值 。 然 后 ,类 似 于 式 (16. 40) 后 面 二 变量 样本 选 
择 模 型 的 技术 ,利用 源 目 回归 的 残 差 平方 ,能 够 获得 到 与 的 估计 和 值 。 蕊 达 拉 
(Maddala，1983 ,第 225 页 ) 提 供 了 该 模型 完整 的 详细 内 容 , 他 称 之 为 具有 内 生 转 
换 的 转换 回归 模型 (switching regression model) 。 这 也 是 雨 宫 (Amemivya，1985 ,第 
399 页 ) 曾 经 阐述 的 Tobit 模型 第 五 类 。 


16.7.2 罗 伊 模型 的 变形 


许多 模型 可 归 入 罗 伊 模型 类 。 马 达 拉 (Maddala,，1983, 第 9 章 ) 已 经 给 出 ,他 
称 之 为 具有 上 自选 择 性 模型 的 相关 参考 文献 。 也 可 参见 雨 官 C(Amemiya，1985 ,第 10 
章 )。 此 处 ,我 们 阐明 几 个 重要 例子 。 

二 变量 样本 选择 模型 可 被 看 成 是 下 述 特殊 情况 :忽略 允 上 且 我 们 只 对 截 尾 算 
EL yz |y7 盖 0 加 以 建 模 。 当 yr 二 0 时 ,y= 二 0 的 二 变量 样本 选择 模型 ,诸如 在 劳动 
力 供给 应 用 中 ,可 更 直接 地 看 成 是 罗 伊 模型 ,其 中 我 们 要 么 观测 到 y= 二 y2 ,要 么 观 
测 到 y 二 0。 因 此 ,yy; 二 0。 

在 李 龙 飞 (L.F. Lee, 1978) 的 人 研究 中 ,yz 与 y; 分 别 表 示 工 会 工资 与 非 工 会 
工资 ,而 yx 表示 成 为 一 个 工会 成 员 的 意向 。 这 增加 了 额外 的 结构 : 


yr =y; —y: Tz Yt 


其 中 ,zy 十 t 反 映 出 工会 关系 成 本 ,同时 更 贴近 罗 伊 (Roy，1951) 的 思想 。 一 旦 代 
入 y2 与 y* , 则 得 到 yx 的 简化 式 : 


yr — (XB — Xs B32 ) + (es —es tt) 


现在 ,这 一 模型 与 先前 的 模型 相同 ,其 修正 项 A(xiB1) 可 通过 yi 对 x 的 第 一 步 回 
归来 获得 ,其 中 ,xi 表示 xz 、xs 以 及 z 中 的 唯一 回归 元 。 

石 唯一 截 中 由 数量 a 表示 ,对 于 两 个 可 能 结果 来 说 , 它 会 变化 , 则 罗 颁 模型 简 
化 成 两 个 潜 变 量 : 
/ yr —=xi Bie 
y” =xXi Ba yl 十 el 


其 中 ,y= 二 y* 总 是 可 观测 到 的 ,而 且 我 们 也 可 以 观测 到 , 当 yi 二 0 时 ,二 值 变量 y 
等 于 1, 否则 yi 等 于 0。 关 于 yy 的 这 个 模型 能 被 看 成 是 具有 虚拟 内 生变 量 (dummy 
endogenous variable) (yi ) 的 模型 。 它 可 通过 应 用 赫 殉 曼 两 步 佑 计量 的 表达 式 
ELy* |xj 而 得 到 估计 。 否 则 , 倘 厦 有 关于 y1 的 工具 可 利用 , 则 运用 工具 变量 估计 ，。 
这 需要 一 种 回归 元 , 它 不 决定 关注 结果 的 水 平 , 却 决定 哪个 结果 被 选取 。 
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这 些 软 伊 模型 类 似 于 处 理 效应 文献 中 所 研究 的 模型 。 存 在 两 个 潜在 结果 ,此 
处 为 yz 与 y3 ,但 我 们 仅仅 能 观测 到 两 者 之 一 。 本 章 方 法 通过 对 不 可 观测 因素 的 
分 布 做 强 条 件 假设 而 建立 了 一 种 反 事 实 框架 。 第 25 章 将 曾 述 其 他 一 些 可 供 选 择 
的 方法 。 特 别 地 ,参见 25. 3 节 关 于 各 种 不 同方 法 之 间 的 联系 。 


16.8 ”结构 模型 


关于 选择 样本 的 回归 模型 具有 下 述 特 性 :关注 结果 部 分 地 依赖 于 参与 决策 ,而 
参与 决策 将 反 过 来 依赖 于 预期 结果 。 参 与 决策 与 结果 是 同时 决策 。 前 面 的 表述 借 
助 于 给 出 参与 方程 的 简化 形式 (reduced-form) 而 简化 这 种 相互 依存 性 。 特 别 地 , 参 
见 16.7.2 节 中 李 (Lee，1978) 的 解释 。 这 是 一 种 有 效 方法 ,尽管 与 具有 完全 结构 
形式 所 起 的 作用 相 比 稍 从 有 效 。 

在 本 节 ,我 们 利用 建立 在 效用 最 大 化 基础 上 的 结构 经 济 模型 ,以 显 性 方式 对 相 
互 依存 性 加 以 建 模 , 同 时 利用 可 将 线性 联 立 方程 推广 到 包含 删 失 与 截 尾 的 情况 , 包 
括 二 值 结果 的 结构 统计 模型 。 


16. 8.1 基于 戏 用 最 大 化 的 结构 模型 


最 初 ,结构 模型 (structural model) 全 究 考察 女性 劳动 力 供 给 。 课 本 模型 拥有 
消费 者 最 大 化 效用 的 商品 消费 与 亲 眼 时 间 函 数 , 受 限于 预算 约束 与 时 间 约 束 , 在 闲 
暇 时 间 与 工作 时 间 之 间 进 行 配置 的 时 间 可 自由 决定 如 何 利用 。 在 内 部 解 上 , 闲 眼 
与 商品 消费 之 间 的 边际 替代 率 (MRS) 等 于 工资 率 。 不 过 , 知 大 于 工资 率 , 则 会 产生 
角 点 解 , 即 妇女 选择 不 参加 工作 。 格 罗 诺 (CGronau，1973) 、 赫 克 曼 (Heckman， 
1974) 都 曾经 阐述 过 与 效用 最 大 化 相 一 致 的 经 济 计量 模型 ,从 而 得 到 类 似 的 Tobit 
模型 ,并 解释 了 对 于 那些 不 参加 工作 的 妇女 来 说 ,观测 不 到 工资 率 的 额外 复杂 情 
况 。 后 来 的 研究 包括 并 入 工作 的 固定 成 本 ,产生 了 样本 选择 模型 ,并 使 用 面板 数 
枯 , 从 而 产生 面板 模型 。 基 林 斯 沃 思 和 赫 克 曼 (Killingsworth and Heckman， 
1986) , 布 伦 德尔 和 麦 柯 迪 (Blundell and MaCurdy，2001) 提 供 了 一 个 综述 ,而 姆 罗 
次 (Mroz，1987) 则 给 出 了 一 个 应 用 。 

为 了 阐明 结构 方法 ,我 们 概述 下 面 的 例子 。 迪 宾 和 麦克 法 登 (Dubin and 
McFadden,，1984) 将 家 性 的 能 源 消 费 ( 电 或 天 然 气 ) 与 器 上 其 选择 (比如 电炉 子 或 天 
然 气 炉子 ) 建 模 成 源 晶 相同 效用 孔 数 的 相互 联系 的 决策 。 特 别 地 ,假定 m 个 句 具 
组 合 中 的 第 7 个 家 庭 间 接 效 用 (indirect utijity) 为 : 


Vj;= {a0; Ta /Biapi tapst wy By—r;) ne he (16. 49) 
其 中 ,pi 与 p; 分 别 表示 电 与 天 然 气 的 价格 ,y 表示 收入 ,而 r; 表示 按 年 度 比 率 重 
佑 的 组 合 的 总 管理 生活 周期 成 本 ,满足 : 
rj; = piqy  p2qz; 十 pci 
其 中 ,qj 与 qs 表示 由 拥有 器 有 具 组合 7 的 家 庭 所 引起 的 典型 电 与 气 的 消费 ,ec 表 不 
器 具 组 合 7 的 成 本 ,而 o 表示 贴现 率 。 对 于 不 同 家 庭 , 其 喜好 各 不 相同 ,这 上 归 因 于 
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可 观测 的 特性 w .不 可 观测 误差 7 以 及 器 具 组 合 特定 误 善 ej ,它们 被 假定 成 关于 ; 
是 不 相关 的 ,但 关于 7 是 相关 的 。 此 外 ,存在 一 个 共同 的 器 具 喜 好 因子 ao 。 
给 定 器 具 组 合 7 时 ,对 电 的 需求 等 于 一 (9V;/93p1)/(9V;/9y), 由 罗 伊 恒等式 
(Roy’'s identity) 得 到 : 
Z1 一 gu 一 ao 十 aiz 十 az 为 十 WwW 了 十 BCy 一 方 ) 十 7 


为 了 强调 对 器 具 组 合 j 的 选择 是 内 生 的 , 引 和 人 mm 个 互 不 相交 的 指示 变量 8 .k= 
] ,772 ， 其 中 : 

0， 当 上 关 j 
于 是 ,给 定 器 具 组 合 7 时 对 电 的 需求 由 下 式 给 出 : 


Es 


Tq 一 Da tapi taps +wy +B(y— > rd)tn (16. 50) 
并 一 | 六 -一 ] 


即使 模型 (16. 50) 是 线性 的 ,OLS 回归 也 会 由 于 6 的 内 生性 而 产生 非 一 致 估计 ， 
迪 宾 和 麦克 法 登 (Dubin and McFadden，1984) 曙 经 前 述 了 其 他 两 种 可 供 选 择 的 个 
计 方 法 。 

IV 方法 (IV approach ) 利用 疡 与 rps 作为 Ow 与 TjO 的 工具 来 估计 式 
(16. 50) ,其 中 ,应 表示 选取 各 种 不 同 右 上 其 组合 的 预测 概率 , & 一 1,…,m。 这 里 ， 
V; 用 于 表示 间接 效 由 函数 。 它 既 包 括 效 用 的 确定 成 分 ,又 包括 效用 的 随机 成 
分 ,同时 对 应 于 15. 5. 1 节 中 表示 式 的 U;。 在 6 是 iid 第 廿 类 极 值 , 日 cdf F(e)== 
exp( 一 eXp( 一 YY 一 Er/A V3)) 的 假设 下 ,其 中 ,y 二 0. 577 2 为 欧 拉 常 值 ,用 类 似 方 法 
得到 | : 

p: 一 Pr Ve>Vi, Lk, L=1,* ,mm)| 
一 PrlLe 一 se<<((ew 一 cao) 一 8 一 me BB! ， 所 有 /了 
__ exp[ (ao —Bri)e er/AV3] 
>) 人 iexpL(ao —Bri)e ix/AV3] 

注意 到 ,e; 具有 零 均 值 且 方 差 为 /2, 这 些 均 不 同 于 第 14 章 与 第 15 章 所 使 用 的 第 
II 类 极 值 分 布 的 那些 参数 化 。 对 非 线 性 多 项 式 模 型 进行 估计 会 得 出 预测 概率 pb。 

关于 另 一 种 可 供 选 择 的 样本 选择 方法 (sample selection approach), 注意 到 
ELw| 器 具 组 合 门 关 0, 同 时 使 用 7 与 sl,……enr 的 分 布 假设 来 获得 这 个 期 望 值 。 特 
别 地 ,假定 7 | el1，"… ,Em 是 ild 的 ， 其 均值 为 (V20/4) 2 Rees ,而 方差 为 oo (1 一 
27_1Ri) ,其 中 ,2 1Ri 二 0 且 22f1Ri 过 1, 并 且 4 的 分 布 已 经 给 出 的 。 然 后 ,执行 
迪 宾 和 麦克 法 登 所 给 出 的 一 些 代数 运算 ,得 出 17 


” 
ELy | 器 具 组 合 站 一 > (aVR [Pl +in p; | 
Pk 


ki 


[C17 原著 中 这 里 最 后 一 项 表达 式 为 In pi ,但 应 为 jn pj;。 一 -一 译 者 注 
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于 是 , 赫 克 曼 两 步 法 可 通过 OLS 估计 ， 


Zi 一 97 一 2 an apitapst wy +B(y— Dr ) 
k=] 


. peln pr  . C1) 
to tin |+é 


其 中 ,Pit*2 表示 源 自 前 面 关 于 ps 模型 的 预测 概率 ,而 上 《表示 具有 渐 近 零 均 值 的 
误差 。 

迪 宾 和 麦克 法 登 利 用 3 249 户 家 庭 使 用 两 种 可 能 供暖 组 合 一 一 电 暖 和 气 
暧 一 一 的 数据 来 估计 这 些 模 型 。 

有 关 例 子 包 括 哈恩 曼 (Hanemann，1984) 对 品牌 消费 水 平 的 建 模 ,其 中 ,消费 
者 在 可 能 选择 的 品牌 商品 集中 只 能 消费 一 种 品牌 ,并 且 卡 梅 伦 等 人 (Cameron et 
al. ，1988) 对 在 一 系列 互 不 相交 的 健康 保险 政策 中 选择 其 中 一 种 的 健康 服务 需求 
进行 建 模 。 

迪 守 和 麦 元 法 登 例 子 已 表明 ,为 了 设 定 婚 对 选择 概率 又 对 以 选择 为 条 件 的 需 
求 进行 解析 的 模型 ,需要 许多 创造 力 。 蕉 至 当 不 能 获得 解析 解 时 。 第 12 章 与 第 13 
草 所 阐述 的 计算 方法 方面 的 进步 允许 对 此 类 模型 如 以 估计 。 不 过 ,结果 仍 将 依赖 
于 所 假定 的 效用 以 及 不 可 观测 因素 的 分 布 。 


16. 8.2 腾 六 方 和 下 Tobit 杭 型 与 probit 模型 


为 了 阐明 推广 2. 4 市 线性 方法 涉及 的 问题 ,我 们 考察 依赖 于 两 个 潜 变 量 的 选 
择 模型 ,同时 将 联 立 性 引进 洲 变 量 模型 当中 。 一 种 相当 一 般 的 模型 是 : 
一 aily2 yy ye 十 x1 81 十 gl (16. 51) 
y2 一 ay Ty2yitO, y2 十 X2 9， 十 ez 
其 中 ,yi 与 yz 均 不 是 完全 可 观测 的 , 却 决 定 可 观测 变量 yi 与 y; ,并 假定 误差 服 
从 联合 正 态 分 布 。 例 如 , 当 y7 二 0 时 ,我 们 可 观测 到 二 值 指示 变量 y 二 1; 而 当 
y2 之 0 时 ,可 观测 到 % 三 办 。 注 意 到 ,最 重要 的 是 ,要 么 潜 变 量 作 为 回归 元 ,要 么 
可 观测 结果 作为 回归 元 ,或 者 这 两 者 都 可 作为 回归 元 而 出 现 , 尺 管 识 别 要 求 下 面 将 
给 出 的 那些 约束 。 
内 生 洪 变量 
最 简单 的 是 允许 唯一 浴 变 量 成 为 式 (16. 51) 的 回归 元 。 于 是 : 
yr 一 ol 好 十 xD 十 el (16. 52) 
yy 一 az YY 十 xz BG; 十 es， 
二 变量 样本 选择 模型 (16. 31) 是 这 样 的 例子 , 即 田 外 设 定 az 一 0 且 直 接 设 定 yi 方 
程 的 简化 式 而 不 是 结构 式 。 很 容易 估计 模型 (16. 52) ,因为 yY 与 y2? 的 简化 式 能 
以 通过 与 正规 线性 联 立方 程 完 全 相同 的 方式 来 获得 。 然 后 ,这 一 简化 式 可 利用 一 


C1) 原著 该 公式 中 方 括号 内 最 后 一 项 表达 式 为 nn Bi; 但 应 为 In fj ,一 一 译 者 注 
[2] 原著 中 这 里 为 px, 疑似 印刷 错误 ,应 为 Br。- 一 一 译 者 注 
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些 方法 进行 求解 ,比如 利用 依赖 于 给 定 好 与 和 时 ,决定 y? 与 yz 方式 的 probit 
及 Tobit 方 法。 于 是 ,结构 模型 (16. 52) 的 参数 ,可 通过 运用 简化 式 预测 值 3 与 
分 代替 回归 元 yz 与 y? 而 得 以 估计 。 

把 诸如 式 (16. 52) 的 一 些 模型 称 为 联 立 方程 Tobit 模型 (simultaneous equa- 
tions Tobit models) 。 如 采 可 观测 因 变 量 yi 与 都 是 二 值 的 ,就 产生 了 联 立 方程 
模型 。 纳 尔 还 和 奥 尔 森 (Nelson and OLson，1978) .十 官 (Amemiya，1979) 以 及 李 
龙 飞 马达 拉 和 特 罗 斯 特 (Lee，Maddala，and Trost，1980) 都 提出 这 种 估计 量 ,而 
有 目 李 龙 飞 (Lee，1981) 给 出 了 一 系列 相当 一 般 的 研究 。 该 估计 量 的 标准 误差 ,可 利 
用 6. 6 区 关于 序 贯 两 步 估 计量 的 结果 来 获得 。 不 过 ,更 为 简单 的 方法 是 利用 11.2 
帮 曾 述 的 成 对 上 自助 法 程序 来 获得 。 识 别 需 要 类 似 于 那些 线性 联 立 方程 的 式 
(16. 51) 的 排除 性 约束 。 

内 生 回 妇 元 

对 模型 (16. 52) 的 一 种 普遍 设 定 是 具有 内 生 回 归 元 的 模型 ,其 中 ,内 生 回归 元 
是 完全 可 观测 的 。 于 是 ,y; 是 完全 可 观测 的 ,因而 , 当 y 盖 0 时 ,我 们 观测 到 y, 一 
好， 否则 yy 二 0。 此 模型 变 为 ， 


YL 一 aly 十 XGO) 十 el (16. 53) 
Y2 一 X A 二 


其 中 ,第 一 个 方程 是 关注 的 结构 方程 ,而 第 二 个 方程 是 内 生 回 归 元 ys 的 简化 式 。 
再 次 注意 到 ,这 里 yw 是 连续 的 、 非 离散 的 。 由 于 联合 正 态 误差 el 二 yv 十 & ,其 中 , 
表示 独 了 立正 态 误 差 ( 参 见 5.1 节 ), 所 以 y* = 二 @] y， 十 Xi 十 Yu 十 é。 

两 步 佑 计 方 法 ,从 y 对 x 的 回归 中 计算 预测 残 差 5 二 ys 一 x 元, 然后 从 模型 


yl1 一 alyz 十 xl 91 十 7 十 el 


中 获得 Tobit 估计 值 , 其 中 误差 是 正 态 分 布 。 关 于 y; 的 内 生性 检验 能 实施 成 利用 
源 日 Tobit 软件 包 的 标准 误差 的 y* 一 0 沃 尔 德 检 验 。 该 检验 是 线性 模型 中 实施 豪 斯 
曼 内 生 检 验 的 辅助 回归 的 推广 (参见 8. 4. 3 节 )。 如 果 零 假设 被 拒绝 ,那么 前 面 提 
及 的 第 二 步 回 归 得 出 a 与 wm 的 一 致 估计 值 ,可 是 标准 误差 则 需要 加 以 调整 ,其 原 
因 在 于 男 外 回归 元 5 的 第 一 步 估 计 。 关 于 Tobit 模型 的 详细 内 容 , 参 见 史 密斯 和 
布 伦 德尔 (Smith and Blundel1，1986) ,而 里 弗 斯 和 和 伍 (Rivers and Vuong，1988) 考 
察 了 第 二 步 估计 probit 模型 的 类 似 方法 。 
内 生 删 失 或 二 值 变量 
如 果 式 (16. 51) 中 出 现 可 观测 的 删 失 ,或 二 值 内 生变 量 yi 或 ys 作为 回归 元 ， 
那么 分 析 就 更 为 复杂 。 赫 克 曼 (Heckman，1978) 曾 经 考察 下 述 模型 : 
yr 二 加 和 十 人 VY» 十 X13 十 el (16. 54) 
y2 一 Q2 yl 十 yo yi 二 x2 3。 十 ea 
其 中 , 当 交 二 0 时 ,我 们 观测 到 y 二 1; 当 y7 三 0 时 ,观测 到 六 二 0; 而 且 在 所 有 时 
间 都 可 观测 到 % 王 光 。 一 种 复杂 情况 是 ,此 处 y 作为 回归 元 出 现 。 有 意义 的 简 
化 式 只 能 依赖 于 x 与 xz 而 不 依赖 于 y; 。 这 施加 了 617y; 十 7 二 0 约束 , 即 文献 中 所 
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谓 的 凝聚 条 件 (coherence condition) 的 例子 。 于 是 ,模型 简化 式 变 为 ， 
yi 一 XA | 十 也 


2 一 yo2yi 十 X Try， 十 vw 


这 是 罗 伊 模型 的 一 种 特殊 情况 ,其 中 参与 (y; = 二 1) 导 致 唯一 截 距 在 结果 中 (经 由 7;) 
移 人 位。 通常, 对 于 具有 包括 删 失 或 者 截 尾 内 生变 量 回 归 元 的 模型 进行 估计 相当 因 
难 。 例 如 ,参见 布 伦 德尔 和 史密斯 (Blundell and Smith，1989)。 

例子 

布鲁克 斯 、 卡 梅 伦 和 卡特 (Brooks，Cameron,， and Carter，1998) 应 用 联 立 方程 
Tobit 模型 ,解释 议会 代表 对 准 糖 修正 案 的 投票 。 三 个 观测 结果 yj 、ys 以 及 ys 分 
别 是 投票 (同意 或 反对 ) 来 自 糖 业 利益 集团 对 其 竞争 用 专款 的 捐款 以 及 对 甜 味 剂 使 
用 的 利益 集团 。 第 一 个 结果 是 二 值 结果 ,而 其 他 两 个 结果 都 是 在 0 点 删 失 的 。 可 
设 定 有 关 的 潜 变 量 和 、yz 以 及 y; 的 联 立方 程 模型 ,因而 其 结构 模型 具有 较 简 单 
的 式 (16. 52) 的 形式 。 

这 个 假定 的 合理 性 如 何 呢 ? 范 争 捐款 yz 与 ys 应 该 依赖 于 潜 变 量 yi， 因为 
真实 投票 六 是 在 稍 后 日 期 做 出 的 。 然 而 ,对 于 yr? ,一 种 可 供 选 择 的 且 更 加 困难 的 
模型 是 , yr 关于 投票 的 潜 变 量 y; 依赖 于 所 接收 的 实际 捐款 (ys 与 y;) 而 不 是 潜在 
捐款 。 然 而 ,如 果 这 可 以 被 认为 可 能 是 未 来 重复 进行 的 博弈 ,那么 该 事情 就 利用 
yz 与 yy 来 完成 。 很 明显 ,此 类 假设 的 合理 性 将 随 应 用 而 变化 。 参 数 识 别 是 通过 
关于 外 生 回 归 元 的 排除 性 约束 而 得 到 保证 。 一 致 估计 依赖 于 作为 联合 分 布 的 
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删 失 、 截 尾 以 及 样本 选择 均 会 导致 不 同 于 总 体 的 样本 。 这 在 本 质 上 是 一 个 缺 
失 数 据 问题 ,由 于 数据 关于 因 变 量 而 不 是 内 生变 量 为 缺失 的 , 放 这 是 一 种 复杂 问 
题 。 前 面 一 些 方法 ,可 通过 做 出 分 布 假 设 解决 此 类 缺失 数据 问题 ,要 么 获得 样本 数 
据 的 似 然 肾 数 ,要 么 获得 适当 删 失 、 截 尾 或 选择 的 条 件 均值 。 

这 些 方法 甚至 对 于 误差 分 布 的 极 小 错误 设 定 来 说 都 是 脆弱 的 。 例 如 , 倘 和 看 误 
差 是 正 态 的 且 寞 方差 的 ,或 误差 是 同方 差 的 旦 非 正 态 的 , 则 标准 Tobit 模型 的 OLS 
及 其 赫 殉 曼 两 步 估 计量 都 是 非 一 致 的 。 例 如 ,参见 由 施 (Paarsch，19827) 及 其 中 的 
参考 文献 。 

相当 多 的 研究 致力 于 发 展 半 参 数 佑 计量 ,在 较 弱 分 布 假设 下 , 半 参 数 估 计量 是 
一 致 的 。 可 是 ,在 阐述 重要 例子 之 前 ,我 们 提 及 一 种 可 供 选 择 的 方法 是 ,继续 采用 
建立 在 更 丰富 .更 灵活 分 布 假设 基础 上 的 完全 参数 方法 。 


16.9.1 灵活 参数 模型 


为 了 简单 起 见 , 以 经 典 Tobit 模型 y* 一 x;B8 十 e; 开始 。 其 假设 ;一 ML0,o? 能 
以 两 种 方式 得 以 放松 。 首 先 , 通 过 显 性 模型 o? 二 exp(ziy ) 来 并 入 异 方 差 性 ,这 里 
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的 B 与 7 是 待 估 的 。 其 次 ,可 使 用 比 正 态 分布 更 为 灵活 的 分 布 。 例 如 ,人 们 能 使 用 
正 态 的 平方 多 项 式 展开 (参见 9.7.7 节 )。 

对 于 二 变量 样本 选择 模型 ,可 采用 类 似 方 法 ,其 中 ,现在 使 用 (ei ,es ) 更 灵活 的 
联合 分 布 。 为 了 使 两 变量 正 态 性 假设 更 为 合理 , 李 (Lee, 1983) 提 出 ,以 (el ,ez) 的 
变换 (er "Ez ) 进 行 全 究 。 

由 叶 斯 方法 也 可 用 于 此 类 模型 。 奇 赤 (Chib，1992) 考 察 了 删 失 模型 。 引 进 洪 
变量 y“ 作为 辅助 变量 ,并 使 用 数据 增 广 方法 (参见 13.7 节 )。 吉 布 斯 抽样 器 进行 
下 述 循环 :(1) 关于 8 1y,y' ,oa 的 条 件 后 验 ; (2) 关于 |y,y' ,BB 的 条 件 后 验 ; 
(3) 关于 y' |y, BB,o 的 后 验 。 

关于 处 理 非 线 性 模型 中 的 删 失 、 截 尾 以 及 样本 选择 ,比如 那些 计数 数据 与 持续 
期 限 数据 或 者 混合 的 数据 形式 , 当 半 参数 方法 很 少 能 得 以 利用 时 ,灵活 参数 方法 
(flexible parametric approach); 尤 其 具有 优势 ， 
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现在 , 回 到 半 参 数 估计 上 。 我 们 考察 潜 变 量 的 线性 模型 y: 二 x’B 十 gj , 它 是 在 0 

避 左 面 删 失 的 ,因而 当 i 放 0 时 ,我 们 观测 到 yj; 二 yi ,而 当 过 0 时 , 则 yy; 二 0。 半 
参数 文献 通常 将 这 个 模型 表述 成 : 

二 max(CxiG 十 esi;0) (16. 55) 


这 是 Tobit 模型 (16. 11) 一 (16. 13) ,只 是 s 的 分 布 是 未 设 定 的 。 对 该 模型 做 某 种 改 
动 , 同 样 可 涵盖 在 已 知 固定 点 而 不 是 0 点 的 左 删 失 ,以 及 右 删 失 诸 如 上 端 编码 数据 
的 情况 。 例 如 ,如 果 y= 二 min{x 十 es,D) ,那么 避 一 > 一 max(U 一 X9 一 sc,0)}。 其 目 
标 是 在 没有 设 定 se 的 完整 参数 分 布下 ,一 致 地 估计 B86。 此 估计 量 称 为 半 参 数 的 , 因 
为 未 删 失 均值 x;B8 是 参数 化 的 ,而 误差 分 布 则 不 是 参数 化 的 。 下 面 要 阅 述 的 方法 
在 对 s 分 布 所 做 出 的 假设 上 存在 差异 。 

由 式 (16. 8) 知 ,给 定 交 的 cdf 知识 ,进而 是 s 的 知识 ,进行 ML 估计 是 可 行 的 
对 右 删 失 持续 期 限 数据 情况 ,利用 第 17 章 阐 述 的 关于 cdf 卡 普兰 一 麦 耶 (Kaplan - 
Meier) 乘 积极 限 估 计量 能 以 非 参 数 形 式 估 计 。 否 则 ,se 和 
卡 (Gallant and Nychka，1987 ) 的 序列 展开 以 非 参 数 形 式 得 以 确定 ,参见 9. 7.7 
有 ,这 些 半 参数 ML 佑 计 方 法 极 少 得 到 应 用 。 

然而 ,文献 关注 于 基于 条 件 矩 的 估计 。 由 式 (16. 20) 知 ， 条 件 删 失 均 信 ELy| xj 
显然 是 单 指标 模型 ,满足 ELy|xj] 二 g(x B), 其 中 ,车 对 6 分布 不 加 以 设 定 , 则 函数 
g(*) 是 未 德 的 。 因 此 ,9. 7.4 节 的 单 指标 方法 就 能 得 到 应 用 ,尽管 如 同 注意 到 的 ， 
对 B 加 以 估计 ,至 多 仪 相差 一 个 位 置 与 标 度 。 

一 种 更 流行 的 方法 考察 可 供 选 择 的 条 件 删 失 矩 ,该 和 矩 很 少 受 到 删 失 的 改变 。 
鲍威尔 (Powell，1984) 提 出 利用 条 件 中 位 数 (Cconditional median)。 重 要 的 分 布 假 
设 是 ,slx 具有 零 中 位 数 , 在 此 情况 下 ,yjx 的 条 件 中 位 数 等 于 条 件 均 值 x 3。 通过 
假定 y 是 iid 的 ,最 容易 获得 饮 威 尔 估 计量 的 一 种 直觉 认 知 。 如 果 删 失 是 对 少 于 样 
本 一 半 进 行 的 ,以 至 于 少 于 观测 值 一 半 的 为 0, 且 多 于 观测 值 一 半 的 为 正 的 ,那么 
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删 失 样本 增 位 数 提供 了 总 体位 数 的 一 致 估计 。 鲍 威 尔 (Powell，1984) 将 这 种 思想 
推广 到 回归 情况 ,对 于 少 于 观测 值 一 半 的 elx 进行 删 失 ,就 上 述 那 些 观测 值 实施 同 
样 逻辑 ,其 中 ,es 一 y 一 xXG 依 赖 于 ,而 8 是 需要 估计 的 。 中 位 数 估计 的 回归 类 似 形 
式 是 LAD 估计 (参见 4. 6 节 )。 这 就 产生 了 删 失 最 小 绝对 偏差 (CLAD) 估 计量 


(censored [feast absolute deviations estimator) [ap , 它 极 小 化 : 


N 
QN(B) = NTO |y; — max(x’B ,0)) (16. 56) 
i 二 ] 


此 俩 计量 一 致 性 的 根本 条 件 是 ,e |x 具有 零 中 位 数 。 给 定 这 一 假设 ,此 估计 量 是 
V NN 一 致 的 ,即使 误差 是 条 件 异 方差 的 。B 的 估计 量 是 一 致 的 且 渐 近 正 态 的 。 更 
有 效 估 计量 能 够 通过 以 f(0|x;) 对 和 式 中 的 一 些 项 进行 加 权 获 得 ,e; |x; 的 条 件 密 
度 在 0 点 进行 计算 。 该 方法 同样 可 以 被 推广 到 条 件 分 位 数 上 。 

一 种 可 供 选 择 的 方法 是 ,使 用 对 称 调整 均值 (symmetrically trimmed mean) 而 
不 是 均值 ,这 也 不 会 受到 删 失 的 影响 。 假 定 elx 分 布 是 对 称 分布 。 这 药 含 ,对 于 具 
有 正 均值 的 观测 值 ( 即 x B >0), 在 (0，2x 8) 上 服从 对 称 分布 。 于 是 ,或 者 
x 3 十 e <0 与 y= 王 0 是 可 观测 到 的 ,或 者 以 相等 概率 xB 十 e >2x'G ,同时 为 了 确保 
关于 xB 对 称 ,而 人 为 地 将 数据 设置 成 2x 3。 

我 们 已 经 证 明 ， 

Ell(x 8>0)Lmin(y,2x 8)—x Blx|=0 (16. 57) 

其 中 ,1CxOG>0) 把 注意 力 限 制 在 具有 正 掏 值 上 ,而 且 新 的 因 变 量 是 y= 二 0, 或 者 
0<y<2xB ,或 者 若 y 二 2x DG , 则 为 2x 8 。 建 立 在 式 (16. 57) 基 础 上 的 矩 估计 量 没 
有 6 的 唯一 解 。 鲍 威 尔 (Powell，1986b) 提 出 了 对 称 删 失 最 小 二 乘法 [symmetrical- 
ly censored least squares (SCLS) estimator | 估计 量 ,该 估计 量 极 小 化 : 


QN (BB)=N™ > 仁和 一 max(Cy 23) ] ly>2x8)Ly:/4—max(0,x8)]) 
(16. 58) 

经 过 一 些 代数 运算 ,可 以 证 明 , 每 到 的 一 阶 条 件 是 矩 条 件 (16. 57) 的 样本 类 似 形式 。 
背 和 奥 读 雷 (Chay and Honoré，1998) 提 供 了 SCLS 估计 量 修饰 的 图 形 解释 ,并 且 
奥 谨 雷 和 鲍威尔 (Honoré and Powell，1994) 提 供 了 相对 分 段 差 分 估计 量 。 

梅 伦 介 格 和 范 。 索 斯 特 (Melenberg and Van Soest，1996) , 裔 和 奥 诺 雷 CChay 
and Honoré，1998) 以 及 请 和 鲍威尔 (Chay and Powell，2001) 都 曾经 给 出 这 些 信 
计量 中 某 些 估计 量 的 应 用 。 帕 甘 和 乌拉 (Pagan and Ullah，1999) 提 供 另 外 一 些 方 
法 及 理论 。 

举 一 个 实证 例子 ,我 们 将 CLAD 估计 应 用 于 16. 2. 1 节 的 数据 ,这 是 由 具有 正 
仿 误 差 的 Tobit 模型 生成 的 数据 。 利 用 ML 估计 的 斜率 参数 ( 设 定 为 1000) 是 956 
(标准 误差 117) ,与 利用 CLAD 所 得 到 的 斜率 参数 838( 标 准 误差 165) 相 比较 。 正 
如 入 们 所 料 ,CLAD 对 非 正 态 性 的 稳健 是 以 有 效 性 的 某 种 损失 为 代价 的 。 


16. 9. 3 ” 荐 厅 模 型 的 半 参 瘦 舍 计 
对 样本 选择 模型 进行 半 参 数 佑 计 是 更 富有 挑战 性 的 。 我 们 考察 最 广泛 研究 的 
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模型 , 即 16. 5. 2 节 和 定义 的 二 变量 样本 选择 模型 (bivariate sample selection model)， 
其 中 ,现在 将 误差 (el ，ez ) 服 从 联合 正 态 分 布 的 假设 加 以 放松 。 

半 参 数 ML 售 计 是 可 行 的 。 特 别 地 ,加 伦 特 和 尼 奇 卡 (Gallant and Nychka， 
1987) 以 显 性 方式 ,考察 了 二 变量 样本 选择 模型 作为 9.7.7 节 曾 阐述 的 级 数 展开 估 
计量 的 合适 备 选 者 。 

不 过 ,文献 却 以 截 尾 条 件 均 值 表达 式 作为 起 点 ,由 式 (16. 3. 4) 知 , 截 尾 条 件 均 
值 由 

El y2; | Xi , y* >0 |—=x2 BT Ele; le 全 一 xD ] (16. 59) 
~— xX2; 1; 二 g(x ) 


给 出 ,其 中 第 二 个 等 式 假定 :sz | 入 ; » ei 具有 只 依赖 于 Xl 的 分 布 ， 这 类 似 于 式 
(16. 41) 。(el，e2 ) 的 分 布 是 未 设 定 的 ,因而 函数 g(.) 是 未 知 的 ,从 而 出 现 半 参 数 
估计 问题 。 巾 于 g(x1B1) 二 (x1B1) 是 可 能 的 ,识别 具有 未 设 定 的 该 模型 就 需要 下 
面 这 个 排 际 性 约束 :xi 中 的 至 少 一 个 分 量 不 出 现在 x 中 。 更 进一步 地 ,x1B1 与 x 
越 走 不 相关 , 则 Cs 与 g(*) 就 越 能 更 好 地 加 以 区 分 。 模 型 (16. 59) 是 偏 线 性 模型 
(部 分 线性 模型 ) , 它 可 利用 9. 7. 3 节 阐 述 的 方法 进行 估计 。 一 些 流行 的 方法 包括 
鲁 定 示 (Robinson， 1988a) 的 差分 佑 计量 以 及 利用 的 级 数 展开 。 由 于 3, 是 未 知 
的 ,yz; 对 x2;Bz 十 g(xti GD) 进行 回归 ,利用 14. 7 节 给 出 的 半 参 数 二 值 模型 估计 量 之 
一 加 以 估计 ,其 中 , FB 能 通过 yi; 对 x; 的 二 值 结果 回归 获得 。 这 些 方法 提供 了 斜率 
参数 B; 的 一 致 估计 。 为 了 另外 估计 截 距 , 必 须 对 原水 平 值 而 不 是 ys 变化 进行 分 
析 ,参见 安德鲁 斯 和 谢 夫 根 斯 (Andrews and Schafgens，1998)， 

纽 韦 .鲍威尔 和 沃克 (Newey，Powell,，and Walker，1990) 将 此 方法 用 于 女生 
天 动力 供给 上 。 参 与 指示 变量 模型 可 利用 几 种 不 同方 法 估计 ,并 且 结 果 ys 的 方程 
可 利用 和 鲁 宾 撑 (Robinson，1988a) 的 方法 加 以 估计 。 梅 伦 伯 格 和 范 ， 索 斯 特 
(Melenberg and Van Soest，1996) 对 假期 文 出 利用 一 系列 广泛 的 半 参 数 方 法 进行 
建 模 , 其 中 , 既 有 二 变量 样本 选择 模型 ,又 有 删 失 回归 模型 。 达 斯 、. 纽 韦 和 维 拉 
(Das，Newey and Vella，2003) 提 供 较 丰富 的 模型 。 

曼 斯 基 (Manski1，1989) 在 相对 最 小 假设 下 ,考察 了 二 变量 样本 选择 模型 的 识 
别 ,并 给 出 既 以 回归 元 为 条 件 又 以 选择 为 条 件 的 均值 界 与 边际 效应 界 。 


16. 10 推导 Tobit 模型 


16. 10. 1 标准 正太 的 截 尾 年 


考察 z ~ 人 W[L0, 1], 具 有 密度 $(z) 二 (1/ V2r)exp( 一 z2/2) 和 cdf BP(z)。 由 于 
Prl z 之 cj 二 1 一 (c) ,所 以 zlz 之 c 的 条 件 密度 是 8(z)/(1 一 思 (z))。 由 此 可 得 : 


E[zlz 之 器 一 | z(g(Cz/[1 一 @C])dz 


一 | z0/ V LA) exp(— /2)dz [1 — Ble) | 
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| 
=| git— C1/ Vaz exp(— #2/2)) dz /[1 ~ BC)] 


一 [一 (1/ V2nA)exp(— x’ /2 /U1 — P(e) | 
= $0 /1 — BC)) | 
类 似 地 ,有 : 


E[z|z > c] = | #2CgCz) /1 ~ BC) Dd 
一 | > XzX(1/ v2r)exp( 一 =:/2)dz/[] — P(e) | 
= | z XA Vr)exp(— 2/2)) dz/[1— Be)] 
= [zx (一 17 Vr)exp(— #2/2)] /[1— Be))] 


-| (x) x (— (1/ V 2x)exp(— z /2) )dz / [1 — P(e) | 


= c$ CO/ B+ (1 B01 BC) 
= c$ (eo)/L1— ®(c)j++1 


经 过 一 些 代数 运算 之 后 ,可 得 : 


Viz|lz >c|=E[z|z el (EFzl|g DPC |)” 
=]1+cg (OO/[1—®0O— g/L 


16. 10.2 Tobit 模型 茵 到 曼 两 步 信 计量 的 浙 近 理论 


由 于 两 步 赫 克 曼 估计 量 依 赖 于 第 一 步 参数 估计 值 ,所 以 该 估计 量 的 新 近 方 差 
短 阵 极为 复杂 。 存 在 几 种 方法 获得 渐 近 方差 ,比如 雨 官 的 方法 (Amemiya，1985， 
第 369 一 370 页 ) 。 然 而 ,这 里 我 们 应 用 由 6.6 节 给 出 的 序 贯 两 步 估 计量 的 一 般 结 
果 。 考 察 Tobit 模型 的 最 简单 佑 计量 (参见 16. 3. 6 节 )。 一 些 方法 适合 于 二 变量 
样本 选择 模型 (16. 5. 4 节 ) 以 及 联 立 方程 Tobit 模型 (16. 8. 2 市 ) 的 两 步 估 计量 。 
一 种 更 为 简单 的 截然 不 同 的 方法 是 ,使 用 自助 法 成 对 方法 (参见 11. 2 节 )。 

由 式 (16. 26) 知 ,我 们 希望 估计 关于 正 y; 的 方程 ， 


yi =xB+oA Xia ) 十 7 
一 Wi(Ca) 个 十 7 
中 的 参数 y= 二 LB” cj ,其 中 ,wa) 二 [x XAGxiQa)] ,而 7 二 yi 一 XB 一 oA (x%a ) 
表示 具有 式 (16. 24) 所 定义 的 方差 的 异 方差 性 。 两 步 方 法 的 第 一 步 是 要 通过 probit 
ML 获得 未 知 参 数 a 的 估计 值 Ce。 由 此 可 得 , 赫 殉 曼 两 步 估 计量 的 两 个 部 分 正规 
方程 为 : 
Dy — Bo) sr NG) ， kx 一 人 (16. 60 ) 


DBX ) 一 中 (XiCE )) 


N 
一 cdiw(a)(y —W(a)y)=0 
二 1 
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其 中 ,第 一 个 方程 给 出 了 a 的 probit 一 阶 条 件 , 而 第 二 个 方程 给 出 了 > 的 关于 正 
的 y;(d; 二 1) 的 OLS 一 阶 条 件 。 

这 些 方程 能 组 合成 >;1h(x;,9) 一 0, 其 中 ,06 二 (a ,7y) 。 利 用 通常 一 阶 泰勒 级 
数 展 开 , 了 一 7 人生 No0， G，Suo(G，) ,其 中 ,G, 二 lim NIEL2 9h(Cx ,9)/30]， 
而 So 二 lim N71E[ ;19h(x;,0)hCx;,0)]」。 我 们 对 相应 于 yy 的 子 分 量 感 兴趣 。 因 
为 ah(Cxi ,90) /399 是 分 块 三 角 的 ,由 于 > 没有 出 现在 第 一 个 方程 组 中 ,所 以 可 出 现 简 
化 。 一 旦 分 割 处 理 ,得 到 一 般 结果 : 

V[@ 42]=Gz (S2 十 Ga[LGj SGi]G2 —G2 GS —Sa Gn Gs )} Ga 
其 中 ,和 拖 阵 已 在 6.6 节 定 义 过 。 
若 对 这 里 的 问题 进行 专门 研究 ,我 们 首先 考察 Gu 中 的 一 些 项 。 于 是 : 
1]， 1 N $* (XC ) / 
Cu limN 2 Ba ) 0 Ba 


9A xia ) 


.| ~ 
(2 一 lm N21diw: Jey 


Ci 的 表达 式 使 用 了 刚好 G 是 probit MLE 的 方差 知识 。Gzi 的 表达 式 使 用 了 : 








~ oh,. gdivw;(oa )( 一 Wi 
E| 5 人 9 |=E| ja | 
dd;Wi(or) 
-Elw da | 
9A Ga) 
=El diw 3 | 
Gz 的 表达 式 使 用 了 : 
ahs: 9diw(Aa)(y—w(a) — / 
a0 97y —d,Ww,Ww, 
转 回 到 S。 上 ,我们 有 : 
Si 一 Gil 
S21 二 0 


Sa 一 lim 广 了 MELd Cy, —w (a)’y)’] 
通过 利用 信息 矩阵 等 式 , 可 得 到 S| 的 表达 式 ，。 取 数 学 期 望 且 经 过 茶 些 运 算 ,得 到 
Sz 一 0, 而 且 Sj;z 正 是 VLyij。 
对 这 些 结果 加 以 整理 组 合 , 得 到 赫 克 曼 两 步 估 计量 了 一 NMNL7，YVy j, 其 中 : 
V, =(WW) WE;W+WDVADW) WW)! (16. 61) 
而 且 WW= Xd,WW’,D 二 Diag[9X(XxiQ) /93a js], Vo。 表示 第 一 阶段 probit MLE 
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的 方差 矩阵 ,同时 也 ;表示 第 ; 个 元 素 为 5: 的 对 角 和 矩阵 。 若 利用 年 阵 命令 , 则 直接 
获得 该 估计 值 。 最 困难 部 分 是 以 解析 形式 获得 式 (16. 24) 给 出 的 到 二 V[w;]。 然 
后 ,假如 这 样 做 很 困难 ,我 们 反而 遵循 怀特 (White，1980 ) 的 方法 ,使 用 6? 二 (vy; 一 
xi BHA XO) )2 。 


16. 11 应 用 研究 


绝 大 多 数 重 要 软件 都 包括 正 态 条 件 下 Tobit 模型 的 ML 估计 。 由 于 人 们 可 分 
齐 佑 计 两 部 分 模型 的 每 一 个 部 分 ,所 以 很 容易 估计 两 部 分 模型 。 原 则 上 ,二 变量 样 
本 选择 模型 ,可 借助 于 仅仅 利用 probit 与 OLS 方法 的 赫 克 曼 两 步 方法 得 到 估计 ，。 
然而 ,由 于 佑 计量 的 两 步 特性 , 很 难 计 算 其 标准 误差 ,可 利用 具有 艇 人 的 赫 克 曼 两 
步 方 法 软件 包 , 更 容易 获得 标准 误差 。 实 施 半 参数 估计 量 需 要 运用 诸如 GAUSS 
程序 语言 进行 专门 编程 。 一 些 软件 包 也 会 允许 执行 其 他 模型 的 删 失 变形 与 截 尾 变 
形 的 ML 合计 ,比如 计数 数据 的 泊 松 或 负 二 项 模型 。 

假如 和 人们 将 删 失 与 截 尾 看 成 是 合理 的 特定 分 布 , 就 容易 处 理 它们 。 例 如 ,车 对 
数 正 态 分 布 拟 合 数 据 表现 得 很 好 , 则 容易 处 理 上 端 编码 的 收入 数据 。 删 失 LAD 依 
赖 于 更 能 的 分 布 假设 , 故 删 失 LAD 也 能 用 于 此 类 情况 中 。 

更 为 严重 的 问题 是 处 理 禹 有 样本 选择 的 模型 。 这 些 模型 的 更 多 参数 形式 均 依 
赖 于 如 下 分 布 假设 ,这 种 分 布 假设 使 人 认为 是 一 种 强 假 设 。 半 参数 形式 仍 必须 努 
力 满足 识别 要 求 , 即 决定 参与 的 变量 不 能 决定 关注 结果 。 一 种 更 有 前 途 的 方法 ,也 
是 人 们 在 处 理 效 应 文献 中 经 常 采 取 的 途径 ,是 将 注意 力 限制 在 如 下 情况 :有 理由 假 
定 , 选 择 仅 是 依据 可 观测 因素 做 出 的 。 


16. 12 ”文献 注释 


源 目 选择 样本 的 有 关 模 型 文献 浩如烟海 。 具 有 教科 书 篇 幅 的 见解 则 由 马达 拉 
(Maddala，1983) 与 古里 耶 克 斯 (Gouriéroux，2000) 做 出 ,而 较 简 短 的 概述 由 雨 宫 
(Amemiya，1984,1985) 以 及 格林 (Greene，2003) 给 出 。 

16.3 托 宾 (Tobit，1958) 提 出 Tobit 模型 ,并 将 它 应 用 于 消费 支出 数据 上 。 
雨 宫 (Amemiya，1973) 正 式 建 立 起 该 模型 的 一 致 性 与 渐 近 正 态 性 。 赫 克 曼 (Heck- 
man，1974) 提 供 了 女性 劳动 力 供给 的 出 色 应 用 ,并 详细 分 析 了 结果 。 

16.4 许多 对 兰 德 健 康 保险 实验 的 研究 , 壁 如 端 等 人 (Duan et al. ，1983), 都 
是 两 部 分 模型 的 重要 应 用 。 

16.5 赫 克 曼 (Heckman，1976,1979) 曾 述 了 二 变量 样本 选择 模型 的 两 步 估 
计量 ,这 也 是 最 近 众 多 半 参 数 估计 方法 的 基础 。 姆 罗 获 (Mroz，1987) 给 出 了 一 个 
女性 劳动 力 供给 的 优秀 应 用 ,他 强调 了 工资 外 生性 假设 的 作用 。 

16.7 正如 Tobit 模型 存在 许多 变形 一 样 , 罗 贷 思想 也 有 众多 变化 形式 。 李 
龙 飞 (L. F. Lee，1978) 提 供 了 早期 对 工会 -- 非 工会 工资 差异 的 应 用 。 

16.8 由 迪 宾 和 麦克 法 登 (Dubin and McFadden，1984) 做 出 的 一 项 研究 工 
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作 , 是 结构 微观 经 济 计 量 分 析 的 重要 例子 ,该 分 析 建 立 在 对 效用 函数 与 不 可 观测 因 
率 的 分 布 完 全 设 定 基础 上 。 

16.9 二 值 选择 模型 的 半 参 数 估计 已 由 李 明 宁 (M-J]， Lee，1996) 、 幸 尔 维 欧 
(Horowitz, 1997) 以 及 帕 甘 和 乌拉 (Pagan and Ullah，1999) 的 书 详细 阐述 , 而 综述 
是 由 维 拉 (Vella，1998) 和 李 龙 飞 4L. FLee，2001) 给 出 的 。 裔 和 奥 庶 雷 (CChay 
and Honore，1998) 以 及 裔 和 鲍威尔 (Chay and Powell，2001) 都 给 出 了 删 失 模型 
的 一 些 应 用 , 画 外 , 梅 伦 们 格 和 范 ， 索 期 特 (Melenberg and Van Soest，1996) 估 计 
了 二 变量 样本 选择 模型 。 


习 题 


16-1 本题 考察 Tobit 模型 中 各 种 不 同 截 尾 的 影响 。 

(a) 生成 淤 变量 y” 一 & 十 3z 十 xz 的 200 个 采样 ,其 中 zx 一 和 ML0，3j, 回 归 元 
Z ~ LO0，1j。 选 择 &, 使 得 你 生成 的 交大 致 有 30%% 成 为 负 的 。 

(b) 通过 排除 对 应 于 y* <0 的 观测 值 , 生 成 删 失 或 截 尾 子 样本 。 

(c) 利用 2004131 个 观测 值 , 通 过 OLS 估计 此 模型 ,就 好 像 潜 变量 是 可 观测 的 
_ 样 . 
(d) 仅仅 利用 y >0 的 截 尾 子 样本 ,通过 OLS 估计 此 模型 。 

(e) 利用 所 有 观测 值 , 使 用 截 尾 极 大 似 然 选 项 估计 参数 。 依 照 截 尾 MLE 的 性 
质 ,评价 你 的 纺 果 。 将 最 小 二 乘法 结果 与 前 面 两 个 部 分 的 绪 果 加 以 比较 。 

(f) 为 了 生成 20M 40 和 以 及 50% 的 删 失 观测 值 ,请 利用 值 ,重复 上 面 所 有 
步 又。 由 此 ,对 于 较 高 水 平 的 删 失 的 参数 估计 , 你 会 提出 什么 结果 昵 ? 如 有 可 能 ， 
请 利用 理论 强化 你 的 推断 。 

16 -2 考察 由 y;* = 十 si 建立 的 潜 变 量 模型 ,其 中 ,e; 一 和 ML0, o?]。 假 定 
y* 从 上 面 删 失 ,因此 , 当 y* 二 U,; 时 ,我 们 观测 到 y; 二 y* , 当 y* 宇 U,;, 观 测 到 y= 
LU 其中, 上限 U; 表示 对 每 个 个 体 而 言 都 为 已 知 常 值 (也 就 是 数据 ) ,但 对 所 有 个 体 
而 言 可 能 是 变化 的 。 

(a) 给 出 这 个 模型 的 对 数 似 然 函 数 。( 提 示 :注意 到 ,不 同 于 标准 情况 ,因为 U; 
存在 ,同时 在 y; 二 Ui, 则 等 式 反 过 来 满足 y; 一 y; 。) 

(b) 求 出 截 尾 均值 表达 式 ELy |x;， yi; 二 U;]。( 提 示 : 对 于 xz 一 人 WLo,， 1j ,我们 
有 Elz|lz 放 cj 二 yg(c)/L1 一 P(ec)]。 同 样 地 ,ELz|z 二 cj 二 一 EL 一 z| 一 z 之 一 cj, 而 
—z ~N[l0, 1|.) 

(c) 由 此 ,给 出 该 模型 的 赫 元 曼 两 步 估 计量 。 

(d) 求 出 删 失 均值 表达 式 ELy |x;]。[ 提 示 :(b) 部 分 的 解答 是 基础 部 分 .| 

16 -3 此 问题 考察 Tobit 模型 错误 设 定 的 后 果 。 起 点 是 习题 16. 1 模型 。 

(a) 通过 令 wu ~NL0,o?zj], 估 计 具 有 异 方差 性 的 y* ,其 中 ,z 盖 0 表示 选取 合 
适 的 正 值 变量 与 zx 相关 ,尽管 不 完全 如 此 。 再 一 次 选择 &, 获 得 大 致 30% 的 删 失 观 


[1] 原著 中 这 里 为 2000, 但 应 该 为 200。-…… … 译 者 注 
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测 什 。 利 用 正常 状态 删 失 的 MLE 来 估计 该 模型 ,同时 将 你 的 结果 与 相应 的 同方 
差 情 况 进 行 比 较 。 | 

(b) 现在 考察 样本 非 正 态 性 的 影响 。 使 用 某 些 软件 包 中 可 利用 的 非常 大 的 模 
拟 , 完 成 基于 1 000 个 观测 值 样本 和 500 次 复制 的 蒙特 卡 罗 估 值 。 在 每 一 次 复制 
中 ,生成 具有 删 失 观测 值 的 样本 ,使 得 误差 从 两 个 正 态 分 布 即 [1, 9] 或 W[0. 4， 
1 的 混合 中 采样 , 即 分 别 以 概率 0. 4 与 概率 0. 6 进行 采样 。 利 用 删 失 Tobit MLE 
估计 该 模型 ,并 将 你 的 结果 与 正 态 情 况 进 行 比较 。 完 成 对 两 个 估计 量 的 蒙特 卡 罗 
输出 分 析 。 推 导 Tobit 佑 计量 的 非 正 态 性 分 布 影响 的 适当 结论 。 

16 -4 考察 泊 松 回归 模型 ,其 中 ,yy 具有 密度 f*(y*) 二 e rpy*/y*1，y” 一 0， 
1,2,…… 并 且 对 于 不 同 ; 具有 独立 性 。 由 于 编码 误差 的 缘故 ,我 们 只 有 当 > 之 2 
时 ,才能 完全 观测 到 y* , 当 y* = 二 0 或 y* = 二 1 时 ,才能 观测 到 交 委 1。 假 定 当 = 
1 时 ,可 以 编码 。 对 于 y; 之 2, 定 义 观 测 数 据 y 王 y ,而 对 于 y* = 二 0 或 y* = 二 1, 定 义 
y 一 1。 

(a) 求 出 观测 到 y 的 密度 f(y)。 

(b) 求 出 ELyj。( 这 里 ,要 经 过 革 些 代数 运算 。) 

现在 引进 满足 ELY xj= 王 exp(CxXG) 的 回归 元 ,并 且 对 于 y* 宇 2, 定 义 指示 变量 
d 一 1 ,而 对 于 y 一 0 或 y* 一 1, 定义 d= 二 0。 

(c) 给 出 这 个 例子 中 佑 计量 目 标 函 数 的 准确 表达 式 , 该 估计 量 利用 关于 yd 
以 及 x; 的 数据 ,提供 6 的 一 致 估计 量 。 

(d) 给 出 这 个 例子 中 估计 量 目 标 函 数 的 准确 表达 式 , 该 估计 量 仅仅 利用 关于 
d; 以 及 x 的 数据 ,提供 6 的 一 致 佑 计量。 

(e) 仅 利 用 关于 4; 与 的 数据 ,可 能 一 致 估计 出 8 吗 ? 请 解释 你 的 回答 。 

16-S 利用 本 章 的 全 部 12 个 月 的 医疗 消费 支出 数据 的 50% 随 机 子 样本 ,并 
利用 类 似 模 型 设 定 ,我 们 和 希望 考察 下 面 的 广泛 问题 ,就 消费 支出 数据 建 模 而 言 , 哪 
一 种 模型 是 适宜 的 ? 

(a) 利用 消费 支出 变量 的 数据 概括 统计 量 , 分 析 观 测 到 0 消费 支出 的 较 高 比 
例 的 含义 。 这 是 否 违背 了 正 态 性 假设 ?存在 消费 支出 的 那 种 变换 吗 ? 该 变换 会 促 
使 所 做 出 的 正 态 性 假设 更 为 适合 。 

(b) 考察 三 个 备 选 模型 ,每 一 个 都 具有 相同 的 协 变量 集合 。 这 些 协 变量 与 计 
数 数据 的 习题 20 -6 相同 。 这 三 个 模型 分 别 是 :(1) Tobit 模型 ;(2) 两 部 分 (围栏 ) 
模型 (TPM);(3) 选择 模型 。 请 解释 如 何 建立 这 些 模 型 的 每 一 种 ,它们 之 间 的 联系 
如 何 , 并 且 人 们 如 何 去 比 较 并 选择 它们 。 假 如 你 遇 到 任何 一 种 特定 的 设 定 或 者 估 
计 问 题 ,就 前 述 它们 ,并 提出 你 是 如 何 解决 它们 的 。 注 意 排 除 性 约束 的 选择 。 

(c) 依次 估计 Tobit 模型 、TPM 以 及 选择 模型 。 对 于 TPM, 你 有 两 个 方程 ,第 
二 个 方程 是 针对 仅 有 正 消 费 支出 的 那些 人 。 就 选择 模型 而 言 , 运 用 MLE 估计 量 
与 ( 赫 克 曼 ) 两 步 估计 量 。 讨 论 你 估计 选择 模型 时 所 需 的 排除 性 约束 的 理论 。 确 实 
存在 证 据 表 明 选 择 问题 是 一 个 严重 问题 吗 ? 

(d) 如 何 比 较 这 三 种 模型 的 拟 合 数据 情况 。 哪 种 模型 看 起 来 提供 了 最 佳 数 据 。 
拟 合 ? 凭借 什么 准则 来 评判 ? 
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(e) 假如 主要 关注 内 容 在 于 :两 个 变量 即 收 入 对 数 、(1 十 共 保 率 ) 对 数 对 支出 
的 影响 。 运 用 你 估计 Tobit 与 TPM 的 结果 ,比较 这 两 种 变量 变动 对 支出 产生 的 边 
际 效 应 。 倘 若 样 本 存在 相当 大 的 异 质 性 ,你 怎样 以 最 有 信息 价值 的 方式 立 述 分 析 
结果 ? 

(fi 简略 解释 分 位 数 回 归 ( 参 见 4. 6 节 ) 提 供 分 析 同 样 数据 的 另 一 种 方法 ,针对 
目前 数据 ,该 方法 的 主要 优 缺 点 分 别 是 什么 ? 


1 一 
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17.1 5 引 论 


持续 期 限 的 经 济 计量 模型 是 关于 由 一 种 已 知 状态 转 人 另 一 种 状态 时 经 历 的 时 
同 长 度 的 模型 ,比如 失业 期 限 、 生 命 长 短 或 没有 健康 保险 时 段 。 在 生物 统计 学 里 ， 
处 于 一 种 状态 的 持续 期 限 , 也 是 著名 的 生存 时 间 511(ifetime) ,而 过 渡 时 间 称 为 死 
亡 (death) ;在 运算 学 里 ,人 们 要 经 常 研究 物体 比如 灯泡 与 机 器 的 寿命 ,有 效 寿命 结 
束 也 就 是 转 人 无效 寿命 ,这 称 之 为 失效 时 间 (failure time)。 在 经 济 计量 学 里 ,状态 
(state) 是 对 单个 个 体 处 于 时 间 某 一 刻 的 分 类 ,过 渡 52]I(transition) 则 是 从 一 种 状态 
变 到 田 一 种 状态 ,时 期 长 度 或 持续 期 限 是 指 在 某 已 知 状态 下 所 经 历 的 时 间 。 一 个 
典型 的 回归 例子 是 , 较 高 失业 救济 金 对 失业 时 期 平均 长 度 或 对 脱离 失业 概率 的 
影 啊 。 

这 个 专题 的 文献 数量 巨大 , 令 人 感到 茫然 ,其 产生 的 原因 众多 。 第 一 , 几 种 有 
关 的 分 布 国 数 是 关注 的 焦点 ,要 么 对 过 渡 概 率 建 模 , 要 么 对 持续 期 限 建 模 。 第 二 ， 
仔 在 多 种 可 能 抽样 方案 ,而 统计 推断 既 依 赖 于 持续 期 限 又 依赖 于 抽样 方案 。 例 如 ， 
有 关 失 业 人 员 持 续 期 限 数据 的 抽样 方法 ,包括 流量 抽样 (flow sampling) 一 一 对 在 
某 已 知 月 份 成 为 失业 者 的 人 员 进 行 抽样 ;存量 抽样 (stock sampling) 对 在 某 已 
知 月 份 失业 者 进行 抽样 ;不 论 就 业 状 况 如 何 , 而 对 所 有 人 员 总 体 进 行 抽 样 。 第 三 ， 
处 于 持续 期 限 的 数据 经 常 是 被 截 尾 的 。 这 是 对 过 渡 而 不 是 通常 回归 分 析 日 标 即 平 
均 期 限 进 行 建 模 的 主要 原因 ,其 目的 是 因为 一 致 估计 过 渡 模 型 要 求 较 弱 分 布 假设 。 
第 四 ,过 渡 数 据 具 有 相当 丰富 的 各 种 状态 ,诸如 失业 、 部 分 就 业 、 全 日 就 业 以 及 非 劳 
动力 ,同时 对 已 知 个 体 而 言 ,可 能 运用 这 些 状 态 的 多 种 过 渡 数 据 。 第 五 ,文献 中 出 
现 各 种 不 同 风 格 、 各 上 有 具 特 色 的 不 同 统 计 应 用 领域 。 在 生物 统计 学 中 ,持续 期 限 分 析 
(duration analysis) 或 过 渡 分 析 (transition analysis) 也 称 为 生存 分 析 (survival anal- 
ysis) (生存 时 间 的 长 度 ) ,在 运筹 学 中 称 为 失效 时 间 分 析 (failure time analysis) (其 
个 研究 对 象 比如 灯泡 或 机 融 部 件 的 故障 时 间 长 度 ) ,在 人 口 学 与 精算 研究 中 , 则 将 








C12] 又 称 为 寿命 。 译 者 注 
[23] transition 在 不 同 环境 下 有 多 种 不 同 翻 译 术 语 , 比 如 经 济 学 中 经 常 译 成 “转型 ”; 而 在 数学 和 统计 学 
中 , 译 为 “转移 ” “转换 ”“ 过 渡 ”; 这 里 译 为 “过 渡 ”。 一 一 译 者 注 
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其 称 为 生命 表 分 析 (life table analysis) (脱离 状态 对 应 于 死亡 ;。 在 保险 与 事故 理 
论 中 , 它 被 称 为 风险 分 析 (hazard analysis)。 在 社会 科学 应 用 中 ,包括 惯 犯 ,婚姻 长 
短 .选举 间隔 期 限 。 

在 本 章 ,我 们 对 通过 流量 抽样 获得 的 单 时 期 持续 期 限 (singe-spell duration ) 数 
据 曾 述 一 些 结果 。 一 个 经 典 例子 是 ,对 生存 时 间 即 从 生 到 死 的 过 渡 进 行 建 模 ,而 且 
众多 结果 都 来 日 生存 分 析 与 生命 表 分 析 。 这 是 统计 学 中 过 渡 分 析 最 广泛 研究 的 例 
子 , 而 本 章 所 述 的 生存 分 析 方 法 ,利用 许多 统计 软件 或 微观 经 济 计 量 软 件 来 完成 。 
本 章 以 回归 例子 开始 ,概述 由 生存 数据 引发 的 问题 。 

17. 3 节 至 17.5 节 闸 述 在 没有 回归 元 条 件 下 的 结果 ,因为 在 此 情况 下 其 至 
会 出 现 一 些 新 概念 。17. 3 节 引 入 基本 持续 期 限 数据 概念 ,诸如 风险 、 累 积 风险 
以 及 生存 图 数 。17. 4 节 定 义 各 种 删 失 形式 ,这 是 持续 期 限 分 析 普 遍 出 现 的 新 的 
复杂 问题 ,因为 完整 时 段 不 是 总 能 被 观测 到 的 。 例 如 ,临床 试验 通常 会 在 最 后 受 
试 者 死亡 之 前 就 结束 。17.5 节 曾 述 风 险 .累积 风险 (纳尔逊 一 奥 伦 估计 量 ) 以 及 
生存 函数 ( 卡 普兰 一 迈 耶 佑 计量 ?的 非 参 数 佑 计量, 它们 在 独立 删 失 条 件 下 是 一 
致 的 。 

本 章 余下 内 容 ,再 次 在 独立 删 失 条 件 下 ,对 回归 模型 加 以 推广 。17. 6 节 阐 述 
完全 参数 模型 即 著 名 威 布 尔 模型 的 估计 。 对 删 失 研究 类 似 于 对 完全 参数 Tobit 模 
型 的 那 种 研究 。17. 7 节 给 出 革 些 重要 的 持续 期 限 模型 。 不 过 ,一 种 可 供 选 择 的 灶 
参数 方法 是 对 风险 函数 即 以 生存 记载 为 条 件 的 死亡 概率 进行 建 模 。 考 克 斯 (Cox， 
1972) 在 他 的 原创 性 论文 里 ,提出 在 相对 较 弱 分 布 假设 下 ,一 致 估计 独立 删 失 的 比 
例 风 险 晴 数 方 法 。17. 8 节 曾 述 生 存 数据 的 标准 模型 一 一 考 元 斯 模型 。 与 大 多 数 
横 截 面 模型 不 同 ,生存 模型 的 回归 元 比如 失业 持续 期 限 模型 中 的 失业 救济 金 , 对 于 
已 知人 员 来 说 ,在 受 试 者 是 可 观测 的 时 期 内 可 能 会 变化 。17. 9 市 详 述 含有 时 变 回 
归 元 的 模型 。17. 10 节 曾 述 离 散 风 险 模 型 。 而 17. 11 节 则 给 出 一 个 实证 例子 。 

后 面 两 章 将 考察 过 滤 建 模 的 更 复杂 内 容 , 这 在 已 有 教科 书 里 很 少 被 全 究 。 这 
些 内 容 包 括 不 可 观测 异 质 性 .多 重 时 期 以 及 多 重 目 标 。 





17.2” 黑 工 期 限 例 子 


考察 由 凯 南 (人 ennan，1985) 页 计 娅 (Jaggia，1991lc) 以 及 其 他 一 些 人 曾经 用 
过 的 墨 工期 限 数据 集合 。 关 注 的 变量 是 ,美国 制造 业 从 轩 工 开始 时 以 天 数 测 算 的 
黑 工 期 限 。 样 本 有 566 个 罢工 期 限 的 完整 (未 删 失 ) 观测 值 。 墨 工 的 平均 期 限 
(daur) 为 43.6 天 ,中 位 数 是 28 天 左右 。 不 过 ,在 黑 工 开始 之 后 90 天 , 仍 /有 88 次 墨 
工 在 坚持 中 。 

我 们 可 以 证 明 , 从 图 形 上 看 , 畦 工期 限 信息 是 一 个 经 验 生存 函数 (survival 
function) 。 图 17. 1 中 的 纵 坐 标 轴 表示 ,罢工 在 开始 数 天 后 仍 在 继续 的 比例 。 该 网 
忽略 日 历时 间 , 这 意味 着 各 次 黑 工 的 不 同 开始 日 期 在 建立 图 形 时 不 起 作用 。 正 如 
人 们 所 料 , 晒 数 从 1 开始 上 且 单调 衰退 于 0, 这 显示 所 有 墨 工 终 将 绪 束 。 
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卡 普兰 一 迈 耶 生存 丽 数 估计 





17.1 罢工 期 限 :生存 顺 数 的 卡 普 兰 一 迈 耶 估计 。 数 据 来 自 1968 一 1976 年 美国 566 次 罢工 
的 完整 时 期 。 


现在 ,引入 回归 元 变量 (z), 它 测算 偏离 趋势 水 平一 一 经 济 商 业 周 期 位 置 指示 
变量 的 程度 。 正 的 z 值 显示 处 于 同上 增长 时 期 ,而 人 负 的 z 值 则 正好 相反 。 我 们 假 
定 主要 目标 是 检验 平均 黑 工 期 限 是 处 于 周期 前 的 [ 即 9Cdur)/9z 盖 0], 还 是 处 于 周 
期 后 的 [ 即 3Cdur)/9z 二 0]。 一 种 继续 研究 的 简单 方法 是 ,通过 In(dur) 对 > 线性 
回归 ,来 对 In(dur) 的 条 件 期 望 进行 建 模 。 如 果 人 们 想 要 对 dur 与 z 之 间 是 否 存 在 
正 相 关 或 负 相 关 加 以 检验 ,这 样 做 就 符合 此 目的 。 

可 是 ,我 们 可 能 对 罢工 条 件 概 率 建 模 感 兴趣 。 这 个 目标 可 利用 具有 结果 为 0 
或 1 的 变量 的 二 项 回 妇 来 达到 。 不 过 ,一 旦 控制 x, 假 定 关注 目标 是 在 上 天 仍 继 续 
坚持 的 罢工 在 第 上: 十 1 天 将 要 结束 的 概率 ,或 是 继续 进行 黑 工 将 要 结束 的 条 件 概 
率 ,并 作为 去 工时 间 长 度 的 函数 ;那么 ,与 生存 分 析 相 比 ,前 面 提 及 的 何 归 方法 则 显 
得 更 缺乏 方 问 性 和 效率 ,而 生存 分 析 还 拥有 另外 一 个 优势 , 即 生 存 分 析 可 处 理 删 失 
期 限 。 下 一 节 将 考察 用 于 生存 分 析 的 一 些 统计 概念 。 


17.3 基本 概念 


某 一 种 状态 的 持续 期 限 是 一 个 非 负 随机 量 , 记 为 了 ,就 经 济 数 据 而 言 ,T 了 经常 
是 一 个 离散 随机 变量 。 为 便于 解释 基本 概念 ,我 们 关注 连续 情况 ,本章 稍 后 给 出 离 
散 情况 。 
17.3.1 生存 扼 数 、 克 险 丁 数 以 及 轩 积 风险 明 数 


王 的 累积 分 布 函数 (cumujative distribution function) 记 为 F() ,其 密度 函数 是 
f(1) 一 dF(1)/dt。 那 么 ,持续 期 限 或 时 期 长 度 小 于 1 的 概率 是 : 


F(t) = PriT<ti| (17. 1) 
一 | fa 
与 cdf 互补 的 一 个 有 关 概 念 是 ,持续 期 限 等 于 或 大 于 :的 概率 , 它 称 为 生存 消 
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数 (sSurvivor function) ;定义 如 下 : 


S(1) = PriT 1 (17.2) 
-一 1 一 下 (人 


式 (17. 1) 中 cdf 的 定义 等 同 于 遵从 卡尔 布 弗 莱 舍 与 普 伦 蒂 斯 (Kalbfleisch and 
Prentice，2002) 的 通常 定义 。 在 持续 期 限 文献 中 ,其 他 一 些 学 者 比如 兰 开 斯 特 
(Lancaster，1990) 反 而 定义 FQ) 二 Pr[T<Zt|, 从 而 SC)= 二 Pr[|T 之 t |, 因为 如 下 定 
义 的 风险 函数 是 以 T 宇 i 为 条 件 而 不 是 以 工 > 上 为 条 件 。 在 离散 情况 下 ,17. 3. 2 节 
考察 过 渡 发 生 的 准确 时 间 ,并 且 所 用 定义 将 取 差 分 。 

由 于 cdf 是 从 0 开始 单调 递增 的 ,所 以 生存 函数 则 是 从 1 到 0 单调 下 降 。 所 有 个 
体 都 终 将 冒 离开 状态 的 危险 ,因而 SC(oo) 二 0。 否则 ,SCce) >>0, 从 而 持续 期 限 分 布 


被 称 为 不 完美 的 。 完整 时 期 长 度 的 样本 均值 是 积分 | SCwdu。 为 了 得 到 这 一 结 
果 ,使 用 . 





[uf ddu =| aaFco = up)| 一 | Fo 
由 于 下 F(oo) = 1 且 F(0) = 0, 由 此 可 得 : 
E[T] = | Ga — F(u)) du = | sCwW du (17. 3) 
0 0 


平均 持续 期 限 等 于 生存 曲线 以 下 的 面积 。 
另 一 个 重要 概念 是 风险 函数 (hazard function) , 它 是 以 一 直 生 存 到 时 间 1 为 条 
件 离开 状态 的 瞬时 概率 。 这 被 定义 成 : 


Pr[ iT 一 :十 Ai T2221i| 


A(2) = im A (17. 4) 
__f(2) 
S(t) 
容易 证 明 ,该 风险 等 于 对 数 生 存 晒 数 的 变化 率 : 
4D =— 
风险 A(2) 设 定 了 工分 布 。 特 别 地 ,对 (1) 进 行 积 分 ,并 使 用 SC(0) 二 1, 可 以 证 明 ， 
S(t) 一 exp(— | AG a ) (17.5) 


在 过 渡 回 归 分 析 中 ,条 件 风 险 率 4(t|x) 是 关注 的 核心 内 容 。 这 一 点 可 与 更 标准 的 
回归 方法 形成 一 种 对 比 , 即 标准 回归 方法 里 ,条 件 均 值 函 数 ELTx] 是 其 关注 焦点 。 
后 面 这 一 方法 具有 不 利 条 件 , 在 实际 应 用 中 ,持续 期 限 经 常 被 删 失 。 

最 后 一 个 有 关 的 肾 数 是 累积 风险 消 数 (cumulative hazard function) 或 综合 风 
险 函 数 41](integrated hazard function ) : 


C12 又 称 为 积分 风险 函数 。 一 一 详 独 注 
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A(1) = Jala (17. 6) 
—— |n S(C7) 
其 中 ,最 后 一 个 等 式 运 用 了 式 (17.5)。 当 S(o0) 一 0 时 ,有 A(oo0) 一 oo。 与 风险 也 
数 相 比 ,由 于 累积 风险 更 能 准确 地 得 到 估计 ,所 以 它 是 关注 的 内 容 。 
对 工分 布 的 任何 选取 而 言 , 可 以 证 明 , 变换 A(T) 都 是 单位 指数 分 布 ,而 
in A(T) 服 从 极 值 分 布 , 这 为 对 模型 设 定 进行 检验 提供 了 基础 ,参见 18.7.2 节 。 
关于 非 负 连 续 随 机 变量 工 的 各 种 有 关上 图 数 , 已 由 表 17. 1 概括 归纳 。 


表 17.1 生存 分 析 : 重 要 概念 的 定义 


纯 数 他 号 定义 关系 
密度 让) f(D = OD 
分 布 F(7) Pr| TT 过 1 F(t) = | f(syds 
生存 晒 数 S(1) Pr TT >1 SC = 1— FO) 
. _ Prt <T<t+h|IT>2 7 ff) 
风险 和 CD lim MD = 三 
累积 风险 A() | xcoa A(t) 一 一 InSGi) 


有 时 ,还 会 运用 其 他 一 些 图 数 , 像 最 著名 的 拉 普 拉 斯 变换 亏 (9) 王 了 Lexp( 一 *T) |， 
0, 它 是 那 种 将 随机 变量 工 限制 为 正 的 矩 生 成 函数 的 一 种 变形 。 


17. 3. 2 雇 南 数据 


一 种 非常 普遍 的 情形 是 ,持续 期 限 以 区 则 形式 加 以 度量 。 例 如 ,数据 可 能 显示 
过 渡 发 生 在 某 个 特定 周 里 ,但 并 不 知道 该 周 的 某 个 准确 时 间 。 在 此 类 情况 下 ,过 渡 
时 间 被 称 为 分 组 的 ,并 假定 区 间 之 内 的 风险 为 常 值 。 离 散 时 间 风 险 模型 将 研究 这 
种 数据 。 
讨论 起 点 是 ,将 离散 时 间 风 险 函 数 定义 成 ,已 知 一 直 生 存 到 时 间 ,在 离散 时 
间 六 过 渡 的 概率 是 (7 一 1,2，……): 
2; 一 Pr[T 一 :1T (17. 7) 
= fi(t)/S (tt ) 
其 中 ,上 标 d 表示 离散 的 ,而 Si (a ) 二 lim .Ss'(1;), 由 于 在 形式 上 S* (i) 等 于 
Pr[ 了 >1 | 而 不 是 Pr| TT 之 t], 所 以 要 做 调整 ,并 有 上 标 “d” 表 示 离 散 。 
从 风险 函数 中 ,可 递归 地 获得 离散 时 间 和 生存 阴 数 (discrete-time survivor func- 
tion) , El. 
SI(1) 一 Pr 三 之 | (17. 8) 


jt; St 
例如 ,PrLT>>t; ] 等 于 在 时 间 4 没有 过 渡 的 概率 乘 以 刚好 在 ts 之 前 以 生存 为 条 件 
的 ,在 时 间 ts 没有 过 渡 的 概率 ,所 以 PrLT>ts |] 二 (1 一 和 4)X(1 一 42)。 畏 数 Sb 在 
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i; 处 是 一 个 递减 阶梯 函数 ,其 阶梯 步 长 在 红 出 现 ,) 一 1,2,……。 

离散 时 间 累 积 风 险 函 数 (discrete-time cumulative hazard function ) 是 : 

Ad(1) = 2 (17. 9) 

利用 式 (17.7) ,得 出 时 期 在 i; 结束 时 的 离散 概率 是 4;S"()。 

能 够 将 连续 情况 与 离散 情况 联合 起 来 。 于 是 ,运用 乘积 积分 定义 生存 肾 数 ,在 
离散 情况 下 ,乘积 积分 简化 成 普通 乘积 式 (17. 8) ,而 在 连续 情况 下 ,乘积 积分 简化 
成 普通 积分 的 指数 形式 。 参 匈 卡 尔 布 弗 菜 舍 和 普 伦 蒂 斯 (Kalbfleisch and Pren- 
tice，2002 ,第 10 页 ) 或 兰 开 斯 特 (Lancaster，1990 ,第 10 一 12 页 ) 。 

由 于 过 程 生 成 过 渡 本 质 上 是 离散 的 ,所 以 就 产生 了 离散 持续 期 限 数据 。 可 是 ， 
大 多 数 情 况 下 ,基本 过 程 是 连续 的 ,只 是 数据 以 离散 方式 观测 到 。 例 如 ,人 们 可 能 
知道 时 期 在 某 个 星期 或 某 个 月 份 结束 了 , 却 不 知道 是 哪 天 或 几 点 结束 的 。 这 种 数 
据 有 时 统称 为 分 组 数据 (grouped data) 。 离 散 数 据 能 系统 地 表述 如 下 。 设 时 间 被 
&R 十 1 个 区 间 [Laoyai) Layas)， Las i1544)，Lai ya) 分 割 。 离 散 时 间 持 续 期 限 
了 一 性 代表 在 区 间 [Laj-_1,a;) 内 发 生 过 渡 , 也 就 是 说 ,在 时 间 a;-1 或 稍 后 出 现 过 渡 。 
一 种 习惯 做 法 是 ,将 离散 数据 处 理 成 由 分 组 而 导致 的 ,因此 对 过 渡 可 用 连续 时 间 形 
式 加 以 建 模 ,然后 通过 分 组 做 出 必要 调整 。 进 一 步 讨 论 将 由 17. 10 节 给 出 ， 


17.4 删 失 


通 第 ,生存 数据 是 被 删 失 的 ,因为 某 些 时 期 不 能 完全 被 观测 到 。 也 就 是 说 , 仅 
仅 知 道 寿命 位 于 某 些 区 间 之 中 。 举 一 个 例子 , 除 观 测 到 失业 的 完整 时 期 长 度 之 外 ， 
数据 可 能 来 自 对 当前 失业 者 的 调查 ,因此 ,只 有 失业 不 完整 时 期 的 长 度 才 能 被 观 
测 到 。 


17.4.1 误 失 杖 制 


在 实际 应 用 中 ,数据 可 能 是 右 删 失 的 、 左 删 失 的 或 者 区 间 删 失 的 。 对 于 右 删 失 
(right censoring) 或 从 上 面 删 失 来 说 ,我 们 观测 到 从 时 间 0 到 删 失 时 间 c 的 时 期 。 
一 些 时 期 将 到 这 个 时 间 ( 完 整 时 期 ) 绪 束 , 而 另 一 些 时 期 则 是 不 完整 的 ,但 我 们 知道 
的 内 容 是 ,它们 在 区 间 (c,oo) 内 的 某 个 时 刻 结束 。 当 知道 菜 些 时 期 在 区 间 (0,c) 内 
的 某 个 时 间 结 束 ,但 不 知道 其 准确 时 间 时 ,就 出 现 左 删 失 (left censoring) 或 从 下 面 
删 失 。 经 典 Tobit 模型 就 是 一 个 例子 ,其 中 茶 些 时 期 上 的 数据 丢失 ,而 且 删 失 时 间 
是 未 埃 的 。 当 观测 到 完整 时 期 长 度 , 但 仅仅 是 以 区 间 形 式 比 如 [iY ,tz ) 出 现 , 便 发 
生 区 间 删 失 。 

生存 分 析 文 献 关 注 于 右 删 失 。 即 使 有 这 种 限制 ,但 仍 有 众多 原因 可 能 导致 删 
失 , 删 失 包 括 随机 删 失 .第 工 类 删 失 以 及 第 II 类 删 失 。 

随机 删 失 或 外 生 删 失意 指 , 样 本 中 的 每 个 个 体 具 有 完整 持续 期 限 T 与 删 失 
时 间 C7 ,它们 之 间 相 互 独立 。 奉 时 期 在 删 失 时 间 之 前 结束 ,我 们 观测 到 完整 持续 
期 限 TY ; 厂 时 期 在 删 失 时 间 之 后 结束 ,我 们 观测 到 删 失 时 间 Cx” 。 此 外 ,还 可 以 知 


微观 经 济 计量 学 


-rr 


过 删 失 发 生 与 否 。 观测 数据 (2 ;01)，, (ts ,02),***, (fn GN) 是 随机 变量 的 实现 值 : 


T,=min(T; CC ) (17. 10) 
DO =1[ TT < ] 


当 A 发 生 时 ,指示 遇 数 1[Aj= 二 1, 否 则 1[Aj] 二 0。 注 意 , 当 完 整 时 期 是 可 观测 的 ， 
6 一 1, 否 则 为 0。 随机 删 失 可 能 由 下 述 原因 引起 ,诸如 由 下 列 情况 引致 的 随机 失 
效 : 个 体 随 机 地 从 研究 中 退出 或 研究 终止 。 

第 [类 删 失 (type I censoring) 意 指 ,当期 限 在 某 个 固定 已 知 删 失 时 间 比 如 i 之 
上 时 被 删 失 。 例 如 ,灯泡 样本 对 所 有 对 象 都 具有 共同 开始 时 间 , 并 且 对 不 超过 
5 000 小 时 的 加 以 检验 。 因 而 ,在 研究 终止 时 , 某 些 对 象 的 失效 时 间或 持续 期 限 是 
已 知 的 ,但 其 他 目标 仍 没 有 “失效 ”。 可 以 认为 ,它们 的 寿命 是 右 删 失 的 。 这 是 随机 
删 失 满足 Cr 二 zi. 的 一 种 特殊 情况 。 经 典 Tobit 模型 是 关于 连续 (一 co,co) 区 间 上 
随机 变量 从 下 面 删 失 的 第 工 类 删 失 的 一 个 例子 。 


17.4.2 独立 ( 非 信息 ) 删 失 


在 存在 删 失 条 件 下 ,为 了 使 标准 生存 分 析 方 法 成 为 有 效 的 ,就 要 求 删 失 机 制 是 
那 种 具有 独立 ( 非 信 息 ) 删 失 的 。 这 意味 着 ,C* 分 布 的 参数 不 涉及 持续 期 限 T 分 
布 参数 的 信息 。 于 是 ,人 们 将 删 失 指示 变量 8 处 理 成 外 生 的 ,而 且 若 关注 内 容 在 于 
持续 期 限 参数 , 则 不 必 对 删 失 机 制 进 行 建 模 。 

对 于 删 失 数 据 (t,6) 来 说 ,未 删 失 观测 值 以 概率 : 


Pr| T=i, 6=1 |=Pr| T=1:|6=1|XPr[8=1| 


被 观测 到 。 知 删 失 机 制 是 独立 的 , 则 PrLT=t16 二 1 二 PrLT=tj]。 如 果 删 失 机 制 
是 非 信 息 的 ,那么 PrL6 一 1j 这 项 可 从 似 然 函数 中 去 掉 , 因 为 它 不 涉及 械 分 布 的 参 
数 。 类 似 地 ,对 于 删 失 观 测 值 来 说 : 


Pr| T=1:, 6=0 | 一 Pr TI6=0 |XPr[6=0| 


在 独立 删 失 条 件 下 ,PrLT 宇 :15 一 0 二 PrLT 之 tj, 而 在 非 信息 删 失 条 件 下 ,可 省 略 
Pr[ 6 二 0。 一旦 与 上 述 讨论 结合 起 来 ,关注 密度 简化 成 , 当 5 二 1 时 PrLT 二 1j, 当 
6=0 时 Pr| T2>t |, 

当 引 入 回归 元 x 时 ,对 于 T' 与 C* 来 说 ,可 能 出 现 随同 一 回归 元 而 变化 。 这 
时 ,C* 参数 再 次 不 涉及 T* 参数 的 信息 。 更 简单 地 讲 , 在 任何 给 定时 点 上 ,不 一 定 
发 生 删 失 ,因为 给 定 x 时 ,实验 者 具有 非常 高 或 非常 低 的 失效 风险 。 

第 II 类 删 失 (type I censoring) 意 指 ,NN 个 实验 者 的 观测 值 ,在 第 pp 个 失效 之 
后 将 终止 。 从 而 , 仅 有 p 个 最 短 时 期 的 持续 期 限 才 是 完全 可 观测 到 的 ,而 余下 来 的 
N 一 p 个 则 在 C7 二 tw 处 被 删 失 , 即 第 p 个 最 短 时 期 的 完整 时 期 。 例 如 ,临床 试验 
可 能 在 请 个 病人 去 世 之 后 停止 。 

随机 删 失 .第 工 类 删 失 以 及 第 I 类 删 失 都 是 独立 删 失 的 一 些 例子 。 更 正式 的 
研究 ,由 卡尔 布 弗 药 伟 和 普 伦 蒂 斯 ( 改 aibfleisch and Prentice，2002 ,第 194 一 196 
页 ) 给 出 。 
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本 村 更 本 到 和 玫 rr 


17.5 非 参 数 模型 


本 节 人 研究 生存 函数 的 非 参 数 估计 ,就 描述 目的 而 言 ,这 些 方法 极为 有 有 用。 在 考 
碟 引 入 回归 元 之 前 ,在 直观 上 人 们 时 常 要 了 解 原来 (无 条 件 ) 风 险 或 生存 函数 的 形 
状 。 运 用 罢工 持续 期 限 例 子 就 可 阐明 这 一 点 。 

我 们 阐述 ,存在 独立 删 失 条 件 下 的 生存 函数 .风险 函 数 以 及 累积 风险 函数 的 估 
计量 。 密 度 本 身 的 非 参 数 因为 很 难 通过 删 失 而 引入 ,故而 不 便 考虑 ;更 为 重要 的 
征 ,与 密度 相 比 ,生存 函数 及 风险 函数 更 容易 解释 。 

回归 元 没有 被 包括 进来 。 阁 关注 内 容 仪 仅 是 回归 元 的 几 个 重要 值 ,诸如 各 种 
不 同 处理 制 度 或 处 理 水 平 , 则 人 们 可 在 每 个 重要 值 上 获得 各 自 的 非 参数 估计 ,并 对 
它们 加 以 比较 。 在 经 济 学 应 用 中 ,很 少 出 现 这 种 情况 ,而 是 需要 拥有 回归 元 结构 更 
丰富 的 模型 ,这 将 在 17. 6 节 至 17. 10 节 讨 论 。 

我 们 关注 离散 持续 期 限 ,比如 生命 表 数 据 , 故 要 用 到 17. 3. 3 节 的 离散 时 间 公 
式 。 例 如 ,考虑 特定 年 龄 与 性 别 的 No 个 一 组 人 。 对 他 们 跟踪 数 年 。 在 第 1 年 末 ， 
此 组 存在 Ni 个 人 ,而 Ni 一 No 个 人 在 最 初 组 中 要 么 因为 死亡 要 么 由 于 其 他 缘故 而 
丢失 ( 删 失 )。 在 随后 一 年 ,此 组 人 数 为 N; 一 Ni ,等 等 。 这 种 生命 表 数 据 能 被 用 于 
构造 在 没有 任何 先 验 参 数 假设 条 件 下 的 离散 时 间 生 存 函 数 ， 


17. 5. 非 参数 信 计 


就 没有 删 失 情况 而 言 ,生存 肾 数 的 一 个 明显 估计 量 是 1 减 去 样本 累积 分 布 函 
数 。 于 是 ,SC(z) 等 于 持续 期 限 大 于 :的 样本 中 的 时 期 个 数 被 样本 量 N 除 。 这 是 在 
离散 失效 时 间 处 具有 跳跃 性 的 阶梯 函数 ;参见 图 17. 1。 给 定式 (17. 13), 这 个 估计 
量 的 一 种 可 供 选 择 等 价 表述 形式 ,在 存在 独立 删 失 条 件 下 保持 一 致 性 。 

设 二 过 过 一 之 之 …< 之 ti 表示 样本 量 为 N 的 样本 中 时 期 可 观测 的 离散 失效 
时 间 ,N 宝 x。 定义 d; 为 在 时 间 局 结束 的 时 期 数 。 由 于 数据 是 离散 的 ,所 以 d; 可 
能 大 于 1。 一 些 时 期 可 能 是 不 完整 观测 的 。 定 义 mj 为 区 间 [ ,tj11) 中 右 删 失 时 期 
数 。 厂 假定 删 失 机 制 是 独立 删 失 的 , 则 对 于 处 于 [zj ,ti) 之 中 的 删 失 时 期 ,只 知道 
其 失效 时 间 大 于 二。 如 果 一 些 时 期 尚未 失效 或 没有 删 失 ,它们 就 处 于 失效 风险 之 
中 。 把 x 定义 成 等 于 在 时 间 与 -, 即 刚好 在 时 间 六 之 前 处 于 风险 之 中 的 时 期 数 。 
于 是 ,六 一 (qd 十 mi 十 … 十 (四 十 re) 一 之 由 > 十 rr)。 注 意 到 ,一 一 入。 总 之 : 


d; 二 在 时 间 与 结束 的 时 期 数 (17.11) 
ni; 一 在 [tj; ,ti41) 内 的 删 失 时 期 数 
rj 二 在 时 间 t 二 》) (di 十 m1) 的 风险 时 期 数 


| 


可 运用 17. 3.2 节 的 离散 时 间 人 公式。 由 于 妃 王 PrLT 王 二 1T 之 二 ,所 以 风险 也 
数 的 一 个 明显 估计 量 是 ,在 时 间 i 结束 的 时 期 数 被 在 时 间 z;- 处 于 失效 风险 时 期 数 
除 , 或 : 
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离散 时 间 生 存 图 数 已 由 式 (17. 8) 定 义 。 生 存 函 数 的 卡 普兰 一 迈 即 估计 量 或 乘积 极 
限 佑 计量 是 样本 的 类 似 形式 : 


5 一 |1d=-i))=T[ md (17. 13) 


ili et Js ?3 


这 是 一 个 递减 阶梯 函数 ,在 每 个 离散 失效 时 间 处 都 有 一 个 跳跃 。 可 以 证 明 , 卡 普 
兰 一 迈 耶 估计 量 是 非 参 数 的 MLEL[ 参见 卡尔 弗 莱 舍 和 普 伦 蒂 斯 (Kalbfleisch and 
Prentice，2002, 14 一 16 页 ) |。 

在 没有 删 失 的 情况 下 , 式 (17. 13) 的 SC 可 简化 成 SC 一 r/N ,在 时 间 :处 于 
风险 的 时 期 数 仍 被 样本 量 除 , 即 1 减 去 经 验 cdf。 为 了 理解 这 一 点 ,注意 到 7 一 d= 
rj+1; 当 mj; 二 0 时 ,在 时 间 j 的 处 于 风险 时 期 数 小 于 在 时 间 7 时 的 终止 时 期 数 , 这 等 
于 在 时 间 /十 1 的 处 于 风险 时 期 数 。 于 是 , 式 (17. 13) 变 成 SC(2) 二 jcrjei/r ,从 
而 简化 成 ~/m ,其 中 ,r= 二 NN。 

离散 时 间 累 积 风险 函数 已 由 式 (17. 9) 定 义 。 累 积 风险 函数 的 纳尔逊 一 奥 伦 
(Nelson - Aafen) 估 计量 是 一 个 明显 的 样本 类 似 形式 : 

A(CD = [1 1; = TT (17. 14) 
RS jl rt Yj 
这 个 估计 量 也 可 通过 S(z;) 一 exp( 一 A(7)) 用 于 估计 生存 函数 ,而 在 连续 情况 下 , 则 
利用 等 式 S() 二 exp( 一 A(1)) 来 进行 。 

举 一 个 例子 ,假定 最 初 有 80 年 观测 值 ,在 时 间 t! 有 6 个 失效 ,在 [t,ts) 内 有 4 
个 时 期 删 失 ,在 时 间 t。 有 5 个 失效 ,在 [is,t3) 内 有 3 个 时 期 删 失 , 在 时 间 z; 有 2 个 
失效 ,在 Lt, ) 内 有 1 个 时 期 删 失 等 。 于 是 , 当 所 ts 时 ,生存 函数 与 累积 风险 估计 
由 表 17. 2 给 出 ，。 


表 17.2 风险 率 与 生存 函数 的 比较 :例子 * 


7 六 d) mm 四 一 起 /ri 人 (三 ) Slr;) 

] g0 6 4 6/80 6/80 (1— 6/80) 
2 70 5 3 5/70 6/80 十 5/70 (1 一 6/80) XxX (1—5/70) 

3 62 2 1 2/62 A(tz) 十 2/62 S(t13) X (1—2/62) 

4 四 _ 加 加 


数目 ,4; 表示 估计 风险 率 ,A(ij ) 表 示 估 计 累 计 风 险 ,SC ) 表 示 估 计生 存 函 数 。 

结 数 据 (tied data) 意 指 ,多 重 失 效 在 一 个 特定 时 点 上 发 生 。 一 种 普遍 的 假定 
是 ,由 于 分 组 而 出 现 结 数据 ,并 不 是 因为 过 程 生成 了 真实 离散 结 。 风 险 估 计 值 = 
d;/r; 假定 有 所 有 终止 都 同时 发 生 在 时 间 1;。 实 际 上 ,终止 可 在 区 间 [z ,tj41) 内 以 累 
进 方式 发 生 , 删 失 也 可 能 在 此 区 间 上 以 累进 方式 出 现 。 那 么 ,r; 对 区 则 Li ,wj41) 处 
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于 风险 中 的 实验 者 数量 平均 来 说 会 高 估 。 在 生命 表 分 析 中 ,标准 修正 法 是 用 d;/ 
(rj 一 m;/2) 代 替 入 二 Qj;/r; ,对 于 S(t)、A() 等 公式 ,可 做 出 类 似 变 化 。 还 可 提出 其 
他 一 些 修正 法 。 

绝 大 多 数 生 存 分 析 方 案 都 会 产生 基本 的 卡 普 兰 一 迈 耶 图 形 和 表 。 表 17. 3 给 
出 黑 工 数据 这 种 输出 的 摘要 ,并 补充 前 面 由 图 17. 1 给 出 的 图 标 。 


表 17.3 轩 工 持续 期 限 : 卡 普兰 一 迈 耶 生存 藻 数 估计 


天 数 开始 总 数 失效 生存 晒 数 标准 误差 
1 566 10 0. 982 3 0. 005 5 
2 556 21 0. 945 2 0. 009 6 
3 535 16 0.9170 0.011 6 
4 519 17 0. 886 9 0.013 3 
5 502 18 0. 855 1 0.014 8 
6 484 9 0. 839 2 0.015 4 
7 475 12 0. 8180 0.016 2 
8 463 12 0.796 8 0.016 9 
13 411 11 0.706 7 0.0191 
14 400 11 0. 687 3 0.019 5 
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风险 函数 的 入 = 二 dj;/r; 估计 值 是 相当 不 连续 的 ,尤其 是 对 于 大 上 而 言 ,因为 那 
样 x; 相对 于 aj;/r; 来 说 变 得 很 少 。 在 画 出 风险 估计 与 时 间 的 图 形 之 前 ,首先 利用 
非 参 数 回 归 方 法 对 风险 估计 进行 光滑 处 理 , 这 样 做 在 形式 上 很 和 用 ,参见 9. 5 节 。 
生存 函数 与 累积 风险 函数 都 更 加 光滑 ,一 种 标准 做 法 是 ,将 这 些 函 数 与 时 间 变 
化 画 出 图 形 , 并 且 反 映 抽 样 变 异 的 置信 带 。 有 几 种 方法 估计 这 些 置信 带 。 我 们 给 
出 的 公式 都 是 运用 STATA 的 。 
对 于 生存 函数 的 卡 普兰 一 迈 耶 估计 来 说 ,一 种 普通 做 法 是 ,运用 方差 的 格林 伍 
德 估 计 值 : 
7 厂 安 < 2 d; 
V[SGQ)] = SQ) Pr 


被 报告 出 来 的 S(z) 置 信 区 间 经 常 建立 在 ln( 一 ln SQ)) 而 不 是 SG) 的 基础 上 ,因为 
这 种 变换 确保 了 置信 区 间 位 于 生存 函数 范围 内 ,即位 于 0 一 1 之 间 。 由 此 变换 ,得 
出 100(1 一 a) % 置 信和 区 间 为 : 


Si(1)E(S(1)exp' 250) , S(t)exp'%/27 0) ) (17. 15) 
其 中 ,c(t) 表 示 ln( 一 ln SG)) 的 标准 差 , 它 是 利用 : 


2 0) dT) 
Os [Zielnl or, —d;)/d;)j 
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舍 计 出 来 的 。 
对 于 轩 积 风险 函数 的 纳尔逊 一 奥 伦 估计 量 ,方差 估计 值 是 : 


YLAO] = 忆 所 
由 变换 In A(5 ,得 出 累积 风险 的 100(1 一 a) % 置 信 区 间 : 
A(t)EL[AlCt)exp(—z At)), ACt)explz Gn (t))] (17. 16) 
其 中 ,64(z) 表 示 ln A(2) 的 标准 差 ,也 可 利用 
62(1)= VLACG) /A C1) 
估计 出 来 。 


17.6 参数 回归 模型 


我 们 通过 概述 起 基准 作用 的 两 个 分 布 的 性 质 开 始 讨论 。 对 于 持续 期 限 数据 来 


17. 6.1 指数 分 布 和 威 布尔 分 布 


于 常 参 数 起 点 是 指数 ,因为 纯 泊 松 点 过 程 具有 服从 指数 分 布 的 持续 期 限 ,参见 
兰 开 斯 特 (Lancaster，1990, 第 86 页 )。 指数 持续 期 限 分 布 具 有 常 值 风 险 率 y, 它 不 


随 1 而 变化 ,拥有 指数 的 无 记忆 性 质 。 由 式 (17. 5) 可 得 ,SCD 二 exp( 一 [raw = 


exp( 一 7Yt)。 密度 是 f(1) = 一 S' (1) 一 yexp( 一 71) ,而 累积 风险 A() 一 一 ln SG) 一 
Yt 关于 上 是 线性 的 。 

在 实际 应 用 中 , 因 指 数 分 布 是 单 参数 分 布 , 故 表现 出 极 强 的 约束 性 。 经 济 计量 
学 中 普遍 使 用 的 推广 形式 是 威 布尔 分 布 (Weibull distribution) 。 表 17. 4 列 出 威 布 
尔 分 布 与 指数 分 布 的 密度 .其 他 分 布 函数 以 及 各 阶 矩 ,这 里 特殊 情况 为 二 1。 由 
17. 5 表 给 出 的 函数 P(*) 是 一 个 伽 玛 本 数 。 


表 17.4 ”指数 分 布 与 威 布尔 分 布 :pdfedf、 生 存 函 数 . 风险、 累积 风险 、 均 值 以 及 方差 


f(z) Yexp(— Yt) yat” 'exp(— Yt°) 

P(t) l1— exp(— Yt) l—exp(— yt°) 

S(t) exp(— Yt ) expl — Yt°) 

ACL) 7 yat 

A(z) Yt Yi" 

ELT y y Re 十 1) 

VLT]. y y [TC2a 十) 一 LRC 一 十 1 
Ya 7 一 0 7 全 0，Q 0 
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表 17.5 标准 参数 模型 及 其 风险 函数 与 生存 函数 
参数 模型 风险 晴 数 生存 函数 类 型 

指数 7 exp(— Yt) PH, AFT 
威 布尔 yat”! exp(— Yt") PH, AFT 
广义 威 布尔 Yat S(t1) [i—wyt* PH 

囚 班 欧 Yexp(—at) exp(—(yY/a) (eC— 1)) PH 

太 exp(— (ln t—)* /207) 加 加 

对 数 逻 辑 斯 蒂 ay*t*!'/[(1 十 (yt )*)] 1/L Ct) |] AFT 

伽 玛 YY1)" "exp[ 一 (2) 1 一 Tay Yt ) AFT 


Tlo) [1—I(a, yt) 


a 对 于 冈 珀 茨 (Gomportz) 模 型 , 除 cc<a<<ce 之 外 ,所 有 参数 都 被 限制 成 正 的 。 


威 布尔 模型 具有 风险 肾 数 4A(1) 二 Yat"!', 当 a >1 时 , 它 是 单调 递增 的 ;而 当 
a 二 1 时 ,人 它 是 单调 递减 的 。 这 是 比例 风险 (PH) 族 的 特殊 情况 ,参见 17. 7. 1 节 , 在 
此 情况 下 ,4(2) 因 子 归 入 仅仅 依赖 于 tAo (2) 的 基准 成 分 之 中 ,第 二 项 ( 妈 y) 能 被 参 
数 化 成 唯一 协 变量 的 函数 。 图 17. 2 显示 了 > 一 0.01 与 a 二 1.5 时 威 布尔 分 布 的 性 
质 。 如 同 具 有 持续 期 限 数 据 的 情况 ,密度 是 向 右 偏 斜 的 。 生 存 曲 线 的 形状 是 许多 
各 种 不 同 分 布 体现 出 来 的 共同 形式 ,要 直接 分 辨 各 种 估计 生存 曲线 则 很 困难 。 在 
威 布尔 例子 中 ,风险 函数 是 递增 的 ,这 是 因为 a 这 1。 其 他 参数 模型 能 具有 各 种 不 
同形 状 的 风险 洒 数 ,包括 单调 递增 的 形状 .单调 递减 的 形状 .UV 形状 以 及 反 U 


形状 。 


威 布尔 分 布 


0 20 40 60 80 
持续 期 限 
8 
如 6 
区 4 
冯 2 
0 
0 20 40 60 80 
持续 期 限 


17.2 威 布尔 分 布 :对 应 于 时 间 Y=0. 01 与 a 二 1/5 时 的 密度 函数 .生存 函数 .风险 函数 、 累 积 
风险 函数 的 散 点 图 。 


在 实际 应 用 中 ,很 难 被 准确 地 估计 出 风险 函数 ,尤其 对 右边 尾部 。 而 累积 风险 
A(z) 则 可 更 准确 被 估计 出 ,并 对 各 类 模型 进行 辨别 成 为 可 能 。 一 种 更 好 的 方法 是 ， 


雪 和 中 中居 中 


微观 经 济 计量 学 


男 出 In A(2) 与 Ini 的 图 形 , 其 原因 在 于 威 布尔 模型 ln A(7) 二 ln yy 十 a Int 关于 nt 
是 线性 的 ,其 斜 认为 Co 


17. 6.2 ” 菜 些 参数 模型 


次 受 欢 迎 的 参数 模型 包括 指数 模型 威 布尔 模型 .四 珀 芯 模 型 、 对 数 正 态 模 型 、 
对 数 逻 辑 期 带 模型 以 及 伽 玛 模型 。 这 些 模型 的 风险 与 生存 函数 已 由 表 17. 5 给 出 。 


对 于 爷 玛 模型 ,Fo) 一 | cz:d 是 伽 玛 函数 ,而 1(a, yt) 是 不 完整 伽 玛 本 


数 ,其 中 ,7T(ayz) 一 | ema /Ta), OTa,xrx)< 1,。 


三 闵 威 布尔 模型 是 由 穆 达 尔 卡 、 斯 里 瓦斯 塔 瓦 和 科勒 (Mudholkar，Srivastava 
and Kollia,1996) 提 出 的 。 威 布尔 模型 通过 引入 其 他 形状 参数 ,克服 了 对 那个 模型 
的 重要 限制 ,并 促使 风险 函数 拥有 更 加 灵活 的 形状 。 当 p>0 时 ,通过 取 极 限 获得 
威 布尔 模型 。 由 表 17. 5 知道 : 


In A(t)—=ln(ya) (a—1)ln tx ln SC) 


由 于 91n SC(2)/9z <0, 所 以 当 六 0 且 a >1 时 ,该 方程 右边 关于 上 是 递 增 的 。 当 
a 和 1 且 /<0 时 ,风险 函数 是 单调 递减 的 。 当 au >1 且 < 天 0 时 ,风险 孙 数 具有 两 
种 成 分 ,其 中 一 种 是 关于 上 递减 的 ,而 另 一 种 关于 上 则 是 递增 的 。 因 此 ,两 个 合并 能 
生成 单 峰 或 UL 形 风险 函数 。 所 以 ,广义 威 布尔 模型 具有 洪 在 灵活 性 ,是 一 种 有 用 
的 函数 形式 。 

内 班次 模 型 类 似 于 威 布尔 模型 ,因为 它 在 ( 当 a >0 时 ) 单 调 递增 或 者 (ac <0 
时 ?单调 递减 ( 当 a = 二 0 时) 特殊 情况 下 作为 指数 模型 。 内 珀 区 模型 是 死亡 数据 方面 
的 一 个 优秀 模型 , 它 在 生物 统计 学 中 的 应 用 , 比 在 经 济 计量 学 中 的 应 用 更 加 广泛 。 

对 数 正 态 分 布 具 有 倒置 形 的 浴 红 风险 了 消 数 , 即 它 首 先 随 t 变化 而 增 大 ,然后 随 
变化 而 递减 。 当 a >1 时 ,对 数 逻 辑 斯 带 也 是 如 此 。 对 于 拥有 该 性 质 的 持续 期 限 
数据 来 说 ,很 明显 ,与 指数 模型 威 布尔 以 及 冈 珀 疾 模 型 相 比 ,这 些 模型 更 为 合适 。 

另 一 些 参 数 模 型 ,包括 基于 雷 利和 梅 卡 姆 (Rayleigh and Makeham) 分 布 的 模 
型 逆 高 斯 乏 段 连续 风险 蚂 数 、 广 叉 颁 玛 模 型 (Lawless，1982) 均 可 舱 入 到 一 种 作 
为 特殊 情况 的 伽 玛 污 威 布尔 模型 中 。 卡 尔 布 碍 菜 舍 和 普 伦 带 斯 (Kalbfleisch and 
Prentice，2002 ,第 3 章 ) 与 兰 开 斯 特 (Lancaster，1990, 第 3 章 ) 都 详细 地 前 述 了 许 
多 参数 模型 。 

一 般 地 讲 ,一 些 分 布 都 是 两 个 参数 的 分 布 。 回 归 元 是 通过 令 y= 二 exp(x DG) 引 
入 的 ,并 设 a 为 常 值 ,但 对 于 对 数 正 态 模 型 , 则 是 令 二 x B ,并 设 ao 为 常 值 。 

为 了 获得 一 致 参数 估计 ,并 利用 广泛 的 参数 模型 ,参数 建 模 的 主要 问题 是 对 模 
型 正确 设 定 的 依赖 性 。 绝 大 多 数 模型 被 分 类 归 入 PH 模型 ( 表 17. 5 中 的 前 四 个 ) 
或 加 速 失效 时 间 模 型 ( 表 17. 5 中 的 前 两 个 与 后 三 个 模型 ) 之 中 。 归 属于 这 两 类 模 
型 的 是 威 布尔 模型 , 它 在 经 济 学 中 的 应 用 相当 广泛 。 特 别 是 , 当 经 济 应 用 中 有 许多 
观测 值 可 利用 时 , 男 一 种 广泛 使 用 的 模型 是 分 段 常数 风险 模型 ,和 它 是 PH 模型 的 一 
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17. 6.3 级 大 似 然 什 二 


我 们 现在 利用 ML 与 最 小 二 乘 方法 ,考察 具有 独立 删 失 或 非 信 息 删 失 的 完全 
参数 分 析 。 由 于 参数 模型 建立 在 连续 分 布 基础 之 上 ,所 以 可 使 用 连续 持续 期 限 公 
式 。 假 定 回归 元 是 时 不 变 的 ,而 时 变 回 归 元 的 情况 参见 17. 9 节 。 

设 T* 表示 没有 删 失 的 持续 期 限 , 条 件 密度 为 f(z|x,9) ,其 中 ,9 表示 gqX1l 维 
参数 问 量 ,x 是 回归 元 , 它 随 不 同 实验 者 而 变化 ,但 对 一 个 给 定 实验 者 来 说 , 却 并 不 
随时 期 变动 而 变化 。 由 于 存在 删 失 , 故 估计 颇 为 复杂 。 于 是 ,观测 到 的 持续 期 限 : 
可 能 是 不 完整 时 期 长 度 ,数据 被 揭示 删 失 存在 的 变量 所 扩大 ,这 里 , 删 失 被 假定 成 
非 信息 的 。 

由 17. 4. 2 节 , 研 究 类 似 于 对 Tobit 模型 所 做 出 的 那样 。 对 于 未 删 失 观测 值 ， 
对 似 然 取 数 的 贡献 是 Fix,9) 。 就 右 删 失 观 测 值 而 言 , 只 知道 大 于 上 的 持续 期 限 ， 
因此 它 对 似 然 函 数 的 贡献 是 : 


PT> 4 =| fulx,0) du 
= 1— F(t|x,0) = S(t|x,0) 
其 中 ,SC ) 表 示 生 存 图 数 , 第 i 个 观测 值 的 密度 被 写成 ， 
Fa 8)5SG ,0 
其 中 ,6; 表示 右 删 失 指 示 变 量 , 即 . 


站 (未 删 失 ) 
”lo0，( 右 删 失 ) 


一 且 取 对 数 并 求 和 ,得 到 对 对 数 似 然 
N 
ln (0) -一 >》 | 人 |n fl ] 入; ,0) 十 (1 — ©6;)l1n SC, ] 入; ,0) | (17. 17) 
;一 1 


求 极 大 值 的 MLE 6 ,其 中 ,假设 对 不 同 i 具有 独立 性 。 和 式 中 第 一 项 对 应 完整 时 
期 ,而 第 二 项 则 对 应 右 删 失 时 期 。 由 于 ln SG) 二 AQ), 且 1n Fo 一 InC(GDSCO ) 一 
InAGC 十 lnSGC ,所 以 此 对 数 的 值 可 用 另 一 种 方式 利用 风险 与 综合 风险 函数 写成 : 


nN 
In LC0) = > [Lo InA(ti|xi,0) AC | x 9) (17. 18) 
i 二 1] 


倘 耕 参数 模型 是 通过 设 定 风险 率 而 不 是 pdf 定义 ,就 可 运用 这 一 结果 。 

这 里 可 应 用 通常 的 估计 理论 。 如 果 密 度 被 正确 设 定 ,那么 MLE 服从 9 一 
A/ [98，( 一 ELaz In/3ag36])-1] ,参见 5. 7. 3 节 。 不 过 , 若 密 度 被 错误 设 定 , 则 
MLE 是 非 一 致 的 。 一 个 值得 注意 的 例外 是 ,存在 删 失 条 件 下 的 指数 持续 期 限 模 
型 ,为 了 一 致 性 ,仅仅 需要 正确 设 定 条 件 均 值 图 数 , 参 见 5.7. 3 节 。 然 而 ,甚至 对 指 
数 模型 来 说 , 若 引 入 删 失 , 则 在 错误 设 定 下 出 现 非 一 致 性 ,而 对 其 他 参数 持续 期 限 
模型 来 说 ,甚至 在 没有 删 失 时 ,也 出 现 非 一 致 性 。 正 如 Tobit 模型 情况 一 样 ,参数 
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I 


方法 的 主要 弱点 是 缺乏 稳健 性 。 
对 ML 方法 加 以 改进 ,以 便 允许 估计 具有 删 失 其 他 类 型 的 模型 。 就 左 删 失 而 言 ， 


可 以 知道 ,时 期 长 度 至 多 为 +, 从 而 其 对 似 然 贡 献 是 Pr[T" 一 局 一 | f(s|x,0)ds = 
F(t | x,0). 
对 于 区 间 删 失 而 言 ,可 以 知道 ,数据 位 于 [&. ,如 ) 之 中 , 从 而 其 对 似 然 贡献 是 ， 


Prlis < T*<i|= | foslx,0 a 一 S(t,|x,0) — S(t, |x,0). 


在 经 济 应 用 中 ,使 用 的 持续 期 限 经 常 是 区 间 删 失 的 。 例 如 ,失业 持续 期 限 可 能 
铀 分 成 数 周 与 数 月 ,而 参数 模型 是 连续 分 布 的 ,比如 威 布尔 模型 。 通 常 假 定 区 间 删 
失 的 效应 充分 小 ,以 至 于 可 以 忽略 区 间 删 失 。 比 如 , 某 个 人 2 个 月 后 为 失业 者 ,但 3 
个 月 之 后 不 再 是 失业 者 了 ,可 以 将 此 处 理 成 拥有 确切 3 个 月 失业 时 期 ,而 不 能 处 理 
成 2 一 3 个 月 范围 的 时 期 。 


17.6.4 做 然 晤 妆 成 分 


倘 天 数据 是 持续 期 限 形式 的 一 种 混合 形式 , 即 以 前 面 曾经 提 及 方式 出 现 的 完 
整数 据 、 截 尾 或 删 失 数据 的 混合 体 , 则 参数 形式 所 设 定 模型 的 极 大 似 然 估计 就 要 求 
人 人 们 建立 其 似 然 函 数 。[ 兰 开 斯 特 (Lancaster，1979) 已 经 提出 ,适合 于 失业 持续 期 
限 背景 下 三 种 不 同 数据 形式 的 各 种 似 然 表 达 式 。] 每 一 种 类 型 观测 值 都 成 为 似 然 函 
数 的 一 项 ,而 整个 似 然 函 数 则 是 对 如 下 各 项 以 适当 乘积 形成 的 [参见 科 林 和 莫 斯 伯 
格 (Klein and Moeschberger，1997 ,第 66 页 ) ]: 


完整 持续 期 限 : 大) 

在 处 左 截 尾 (1 之 41): f (2) /S(t) 

在 妃 处 左 删 失 ， l—S(ic ) 

在 tc 处 右 删 失 : SGic ) 

在 tc 处 右 截 尾 (t 和 tr): f(tr)/L1— SCGr)] 
在 tc .tc 处 区 间 删 失 : S(te ) 一 SGtc ) 


17.6.5 威 布尔 MLE 例子 


威 布尔 分 布 已 由 17. 6. 1 节 给 出 了 详细 闻 述 。 其 风险 函数 是 4()= 二 Yat"'! ,其 
中 ,wa 盖 0 且 yY 守 0。 

回归 元 可 通过 多 种 方式 引入 ,但 通常 设 定 y 二 exp(x'B) ,这样 做 确保 y 盖 0, 而 
a 并 不 随 回归 元 而 变化 。[ 不 过 ,一 些 方法 设 定 y 二 exp( 一 x BB), 这 导致 了 B 估 计 值 
符号 反问 。j 那 么 : 

ln f(t|x, 8,0a)—=InLexp (x B)at" exp(—exp(x B)r)] 
一 XB 二 ina 十 (ce 一 1)lnt 十 exp(CX 8)r 
而 且 : 
lIn S(t|x, Ga) 一 InlLexp( 一 exp(XDD)z) ] 
一 一 eXP(XK 8)r 
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似 然 函数 (17. 17) 变 成 ， 
jn L= 2 [6; {x;Blnet+(a— llni—exp(x’G)r}— (1—6,)exp(x’ BG) 
(17.19) 


局 与 ca 的 一 阶 条 件 是 : 


alnL , 
96 2 (9 exp(xiB)t)x;—0 





2 一 2 (1/atlnt)— lnt, exp(x;B)F =0 


E[LT*|x|l=exp(x 8). 


17. 6.6 模型 信 计 什 的 应 用 


对 非 线性 回归 模型 估计 值 进行 解释 的 通常 方法 是 ,考察 回归 元 对 条 件 均 值 的 
效应 。 若 ?一 exp(xXG), 则 由 表 17. 4 知 ,完整 威 布尔 持续 期 限 具有 增值 E[T*|xj 一 
exp( 一 XB/a)T(a ! 十 1) 二 exp( 一 x BB/a)Tla !)/a。 人 们 在 x 的 各 种 不 同 值 处 计 
算 完 整 时 期 的 期 望 长 度 。 例 如 ,对 于 已 知 年 龄 ,性 别 以 及 教育 水 平 的 人 ,就 能 预测 
出 完全 失业 的 长 度 。 

参数 回归 模型 除了 预测 样本 均值 外 ,还 可 预测 持续 期 限 的 其 他 方面 。 例 如 , 关 
注 内 容 在 于 完成 失业 时 期 中 居民 总 时 间 的 多 少 份额 归 因 于 超过 特定 长 度 或 者 被 特 
定 社 会 经 济 群体 的 个 体 所 经 历 。 持 续 期 限 的 经 济 计量 学 模型 关注 协 变 量 的 作用 ， 
但 值得 注意 的 是 , 它 特 别 涉 及 风险 盟 数 的 形状 ,这 是 因为 某 些 经 济 理论 对 风险 函数 
的 形状 做 出 了 明确 预测 。 

尽管 有 这 些 可 能 ,但 对 参数 持续 期 限 模型 估计 值 进行 解释 经 常 关注 威 布尔 风 
险 率 4(2) 二 Yat"! ,以 及 它 如 何 随时 间 和 回归 元 的 变动 而 变化 。 正 如 17. 3.2 节 所 
提 及 的 , 当 a >1 时 ,这 个 风险 率 递 增 , 而 当 a 二 1 时 ,风险 率 递 减 ,因此 ,很 明显 当 
a 一 1 时 , 单 侧 检验 成 为 关注 焦点 。 就 回归 元 的 变动 而 言 ,有 : 


dA(t)/dx=exp(x B)at" 'B=A(t)B 


所 以 回归 元 变动 具有 风险 国 数 变化 的 乘法 效应 。 因 此 , 正 的 外 系数 蕴含 , 当 x 成 分 
增 大 时 ,风险 率 将 变 大 。 因 而 , 当 8>>0 时 ,zi; 增 大 会 导致 失效 风险 变 大 ,从 而 导致 
期 望 持 续 期 限 减 少 。 


17.6.7 晨 仆 二 乘 从 六 


对 完全 参数 模型 进行 估计 ,与 其 用 MLE 不 如 用 最 小 二 乘法 ,这 一 点 类 似 于 删 
失 Tobit 模型 。 虽 然 在 实际 应 用 中 很 少 看 到 最 小 二 乘 回 归 , 原 因 在 于 一 些 方法 仍 
依赖 于 对 密度 的 正确 设 定 ,而 且 其 有 效 性 也 不 如 MLE 好 ,但 我 们 仍然 曾 述 它 的 一 
些 结果 ，。 
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我 们 以 指数 持续 期 限 回归 模型 开始 。 于 是 ,ELTIx] 王 1/7y 王 exp(CxG), 因 此, 
对 exp(CxXBG) 的 NLS 回归 通过 B 的 非 一 致 估计 量 给 出 了 一 致 估计 。 否 则 ,把 指数 
持续 期 限 模 型 写成 In t= 二 x'B 十 wu, 其 中 ,u 服从 极 值 分 布 (参见 17. 7. 2 节 )。 那 么 ， 
ELln TIxj 一 xB 一 c, 其 中 c 二 0.5722 是 一 个 欧 拉 常 值 。 因 而 ,借助 于 lnt 对 x 的 
线性 回归 ,能 一 致 地 估计 86。 对 于 右 删 失 ,我 们 需要 获得 解析 删 失 拖 ,这 一 点 对 指 
数 也 是 可 能 的 。 : 

利用 基 弗 (Kiefer，1988, 第 665 页 ) 的 更 一 般 结果 ,可 进一步 加 以 推广 。 他 考 
虚 了 满足 s(x'8) 二 exp(x'98) 的 PH 模型 。 于 是 ,有 : 


AC(t|xX) =—=Ao(t,a)explx BG) 
那么 ,基准 综合 风险 的 表达 式 可 如 下 推导 :; 


| acbow = [2050 exp(x Bas (17. 20) 


A(t|x) =Ao (i,a)exp(x B) 
In A(t|x) 一 In Ao (lt,a) xB 
一 jn Aoltsa) =x BC— 1nAlt|x) 
一 XG 十 z& 
其 中 ,误差 项 x 一 一 In AGix) 服 从 第 工 类 极 值 分 布 。 
不 管 对 基准 风险 怎样 选择 ,这 一 结果 都 成 立 。 我 们 利用 下 述 方 法 ,对 此 结果 加 
以 解释 。 对 于 基准 风险 io (t,a) 的 特殊 选择 来 说 , 因 变 量 1 的 一 种 方便 变换 是 
一 ln Asa), 因 为 它 能 被 表述 成 具有 服从 第 工 类 极 值 分 布 误差 项 的 线性 回归 模 
型 。 就 指数 而 言说 ,正如 已 经 讨论 的 ,ln Ao (1,a) = 二 1n ;而 对 于 威 布 尔 情况 ， 
In Ao(ia) 一 xlnt。 在 删 失 样本 条 件 下 ,我 们 利用 删 失 第 工 类 极 值 的 结果 得 到 
ELin Ao (tsa)|T 之 t+ ,然后 沿用 赫 克 曼 两 步 法 。 这 些 结果 也 可 用 作 简 单 诊 断 学 的 
基础 ;此 专题 将 在 下 一 章 讨论 。 


17.7 某 些 重要 的 持续 期 限 模型 


在 持续 期 限 回 归 分 析 所 使 用 的 公式 中 ,最 广泛 运用 的 或 许 是 比例 风险 模型 。 
不 过 ,熟悉 17.7.2 节 曾 经 讨论 过 的 它 的 某 些 变形 以 及 加 速 失效 时 间 CAFT) 模 型 也 
是 有 益 的 。 

17.7.1 比例 风险 模型 


如 同 前 面 提 及 的 ,比例 风险 模型 (proportional hazard model) 的 条 件 风险 率 
A(t1x) ,可 被 分 解 成 如 下 独立 函数 ， 


ACt|x) =Ao0 t,o) $x, GD) (17. 21) 


其 中 ,h(i,a) 称 为 基准 风险 (baseline hazard), 它 只 是 1 的 函数 ,而 6(x,B) 只 是 x 
的 函数 。 通 常 ,$b(x,B) 二 exp(x B)。 多 项 式 基准 风险 在 文献 中 颇 为 普遍 。 
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所 有 形式 为 式 (17. 21) 的 风险 郴 数 tx) 都 与 基准 风险 成 比例 ,其 标 度 因子 
$xX,B) 不 是 1 的 显 函 数 。 广 泛 用 作 参 数 8 的 PH 模型 ,在 没有 关于 4h0(*) 函 数 形式 
的 设 定 条 件 下 能 被 一 致 地 估计 出 来 (参见 17. 8 市 )。 

指数 、 威 布尔 以 及 冈 珀 茨 回归 模型 都 是 PH 模型 ,这 是 因为 它们 的 风险 分 别 是 
exp(xX B) exp(x B)at” 1 以 及 exp(CX DG)exp(at)。 

失业 持续 期 限 应 用 中 ,特别 使 用 的 另 一 个 PH 模型 例子 是 分 段 常 数 风 险 模 型 
(piecewise constant hazard model) ,即将 oa) 设 成 具有 R 段 的 阶 悦 国 数 ,所 以 : 


Ao (ts 0) =—=e’s, Ct cs, j=1,.,k (17. 22) 


其 中 Co—0, cy 一 co 其 他 分 割 点 C19? ,Ce 1 都 是 设 定 的 , 而 参数 1 9 ”9 均 要 加 [| 
估计 。 这 些 参数 都 已 被 指数 化 ,以 便 保 证 io (ia) 盖 0。 与 具有 唯一 基准 风险 参数 
的 诸如 威 布尔 模型 相 比 , 这 个 模型 具有 更 多 待 佑 的 基准 风险 参数 ,但 利用 充分 大 的 
数据 集合 后 仍 是 实用 的 。 

在 不 可 观测 异 质 性 条 件 下 PH 模型 的 可 识别 性 ,将 由 18. 3 节 加 以 讨论 。 


17.7.2 加 语 矢 残 有 时 间 模 型 


首先 ,通过 对 ln 而 不 是 上 加 以 建 模 ,得 到 AFT 模型 。 回 归 模 型 是 对 In 上 设 
定 成 ; 


Int=x’B++u (17. 23) 


并 且 zx 的 各 种 不 同 分 布 会 产生 不 同 的 AFT 模型 。 由 于 jn 上 取信 为 (一 cp,ce), 所 
以 ,wu 的 分 布 可 以 是 (一 co,co) 上 的 任何 连续 分 布 。 

加 速 失效 时 间 (accelerated failure time) 的 产生 ,是 因为 :二 exp(x 8 )wv, 其 中 ， 
v 二 e*, 具 有 风险 率 X4(t|x) 一 Ao《v)exp(xB), 这 里 ,基准 风险 Xo(v) 并 不 依赖 于 1:。 将 
v 二 texp( 一 XB) 代入 ,得 到 风险 、 


A(t|x) —Ao(texp(—x BG))exp(—x 8) (17. 24) 


当 exp( 一 x 8) 之 1 时 ,这 是 基准 风险 A6(2) 的 加 速 式 ,而 当 exp( 一 xB) 过 1 时 , 则 是 
基准 风险 X40(2) 的 减速 式 。 

车 u ~~ML0, o?], 则 得 到 z 的 对 数 正 态 模型 ; 当 将 x 设 定 成 逻辑 斯 带 分 布 , 则 
得 出 对 数 逻 辑 斯 蒂 模 型 。 通 过 令 具有 密度 f(w) 一 exp(au 一 e*)/T(a), 也 可 获得 
舒 玛 模型 作为 AFT 模型 。 

威 布尔 模型 与 指数 模型 是 唯一 既是 PH 形式 又 是 AFT 形式 的 模型 。 后 者 通 
过 令 是 aw 而 得 到 ,其 中 , 忆 服 从 密度 为 f(w) 二 e*exp( 一 e*) 的 极 值 分 布 。 

另 一 些 持续 期 限 模型 ,可 通过 考察 g(t) 二 x 8 十 u, 即 把 上 式 看 成 一 个 变换 而 
不 是 g(t) 二 lnt 而 得 到 ,这 是 变换 类 型 模型 的 一 个 成 员 , 例 如 ,该 变换 类 型 模型 包 
括 了 Box - Cox 回归 模型 。 


微 现 经 济 计量 学 


i 


17. 7.3 有 灵活 风险 是 数 


一 些 模型 与 其 以 设 定 padf 开始 ,不 如 从 设 定 风险 率 开 始 。 例 如 ,把 风险 率 设 
定 成 1 的 二 次 型 ,比如 4AG) 二 XB 十 ait 十 azt? 。 这 就 出 现 UU 形状 风险 函数 。 相 应 的 
综合 风险 是 A(2) 二 (x Bt 十 (a /2 十 (azs/3)8。 已 知 X(2) 与 A(t) 时 ,能 利用 前 
面 结果 直接 构建 其 对 数 似 然 函数 。 

这 种 方法 的 缺陷 是 ,可 能 出 现 4 与 A 的 负 值 ,同时 相应 pdf 积分 可 能 不 一 定 为 
1 ,从 而 导致 风险 率 有 缺陷 。 


17.8 考 元 斯 PH 模型 


对 于 单 时 期 持续 期 限 数据 来 说 ,完全 参数 模型 在 删 失 情况 下 相对 容易 直接 人 
计 , 但 倘 知 参数 模型 的 任何 部 分 被 错误 设 定 , 就 产生 非 一 致 参数 估计 。 解 决 这 个 问 
题 的 一 种 方法 是 ,选取 灵活 的 参数 函数 形式 ,从 而 对 错误 设 定 提供 某 种 防范 。 原 则 
上 讲 , 这 是 一 个 有 效 方法 ,但 此 类 灵活 函数 形式 的 识别 与 估计 并 不 总 是 简单 易 行 。 
一 个 例子 是 广义 徊 玛 模型 ,许多 使 用 者 发 现 ,很 难 对 其 进行 估计 。 

位 运 的 是 , 半 参 数 方法 并 不 需要 对 分 布 完全 设 定 , 这 种 方法 与 针对 Tobit 模型 
所 提出 的 半 参 数 方 法 有 相当 大 的 差异 ,因为 这 种 方法 建立 在 风险 率 模 型 基础 上 ,而 
这 样 的 风险 率 模型 在 Tobit 情况 下 没有 什么 有 意义 的 科学 解释 ,类 似 于 删 失 情况 
下 导致 模型 出 现 稳健 性 问题 。 另 外 ,与 Tobit 情况 不 同 , 从 经 验 上 讲 , 半 参数 方法 
锌 认为 是 成 功 的 ,以 致 它 已 经 成 为 生存 数据 的 标准 方法 。 


17.8.1 上 比例 风险 模 型 


研究 起 点 是 ,提出 一 种 特殊 的 风险 率 函 数 形 式 , 即 由 17.7. 1 节 引 入 的 比例 风 
险 模 型 ,条件 风 险 率 4(z|x) 被 因 式 分 解 为 


A(t|x, 8) = (1) G(x, 8) (17. 25) 
的 独立 图 数 。 如 上 所 述 , 函数 1o (zt) 被 称 为 基准 风险 ,并 仅仅 是 1 的 函数 。 函 数 
4$(X, 旭 ) 仍 然 只 是 x 的 阴 数 ,最 初 我 们 考虑 时 不 变 回 归 元 x 的 情况 ,而 稍 后 则 放松 这 
个 假设 。 还 要 考虑 半 参 数 模 型 ,那里 Mo ( 妨 的 图 数 形式 未 加 以 设 定 ,而 对 wx,G) 的 
困 数 形式 则 完全 设 定 。 
对 gx,O) 的 一 种 最 普遍 选取 是 指数 形式 : 

$xX,B)=exp(x B) (17. 26) 
这 不 仅 确 保 $5(x,B) 放 0, 还 使 得 对 系数 很 容易 地 给 予 解 释 。 假 定 第 j 个 回归 元 x; 

增加 一 个 单位 ,同时 其 他 回归 元 保持 不 变 , 则 : 
ACt| Xnew » BO) —Ao(t)exp(x BB,;) (17. 27) 

—exp(B)A(t|x, 8) 


因而 ,新 的 风险 率 是 exp(8) 乘 以 原来 风险 率 , 而 其 风险 变化 是 1 一 exp(B) 乘 以 原 
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来 风险 率 。 不 过 , 当 人 们 使 用 微分 法 , 则 风险 变化 是 5 乘 以 原来 风险 率 , 这 是 因为 . 
aA(t|x, BG)/9x., =Ao (t)explx B)B, 一 BA (t|x, 8B) (17. 28) 


这 与 非 微分 法 结果 相 一 致 ,因为 exp(B) 二 1 十 B 。 统 计 软 件 经 常 报告 出 既 有 5; 又 
有 exp(B; ) 的 估计 值 及 其 相关 的 置信 和 区间。 

对 于 8g(x,B) 的 更 一 般 形式 ,回归 元 变化 也 能 被 解释 成 对 原来 风险 具有 乘法 效 
应 ,这 是 因为 : 


9AC(t|x, B)/9x —Ao (1t)9$ (Xx, BG)/9x,; (17. 29) 
=A(t|x, 8)XL9og(x, B)/9z; |/$ x, B) 


这 需要 6 的 知识 ,但 并 不 要 求 基准 风险 lo(z) 的 知识 。 
一 个 重要 问题 是 对 PH 模型 加 以 识别 。 这 将 由 下 一 章 在 更 一 般 背 景 下 进行 讨 
论 ,那里 考虑 模型 有 不 可 观测 异 质 性 的 问题 ，。 


17. 8.2 偏 似 然 信 计 


考 殉 斯 (Cox，1972，1975) 曾 经 提出 一 种 估计 PH 模型 中 8 的 方法 ,那里 并 没 
有 要 求 同 时 估计 基准 风险 函数 Mo(i) ,倘若 令 人 满意 的 基准 风险 估计 能 在 估计 8 之 
后 重新 得 到 。 这 里 所 阐述 的 结果 ,适合 于 独立 删 失 数据 与 结 数据 。 

设置 类 似 于 17.5 节 , 对 失效 数据 加 以 排序 ,并 将 观测 值 分 成 哪些 是 停止 的 ,或 
哪些 是 处 于 风险 之 中 的 失效 时 间 。 设 二 过 ts 过 … 过 tj 过 … 过 4& 表示 样本 量 为 N 的 
样本 中 观测 到 时 期 的 离散 失效 时 间 ,NN 宇 k。 风 险 集合 R(z;) 被 定义 成 刚好 在 第 ; 
个 有 序 失效 时 间 之 前 处 于 失效 的 个 体 集 合 , D(z; ) 是 在 时 间 志 停止 的 实验 者 集合 ， 
而 d; 表示 在 时 间 z; 停止 的 数量 。 概 括 地 讲 ,我 们 有 : 


R(t ) 二 4; 之 ij? 二 在 时 处 于 风险 的 时 期 集 (17. 30) 
D(zj) 二 (Ll: 一 t;) 二 在 it 时 完整 时 期 集合 
d; 二 /1(t 一 tj ) 二 在 i 时 完整 时 期 数量 
在 时 间 tt 时 风险 集合 包括 尚未 完成 的 或 尚未 删 失 的 所 有 时 期 。 在 心 盖 1 的 情况 
下 ,可 能 有 结 数 据 (tied data) 。 
现在 ,考察 在 时 间 二 特定 风险 时 期 将 结束 的 概率 。 时 期 7 结束 的 真实 时 期 概 
率 , 等 于 时 期 ; 失效 的 条 件 概 率 被 风险 集合 R(z) 中 任何 个 体 时 期 失效 的 条 件 概率 
去 除 。 后 者 概率 是 R(t;) 中 每 一 个 个 体 失效 的 条 件 概率 之 和 。 于 是 有 : 
Prl 7 一 二 | 厂 之 万] 
er PrL T= | 五 之 二 
| 
SeRG A [x ,8) 
_  $(%,0) 
Zire RG OX ,GB) 
其 中 ,最 后 一 行 基准 风险 因子 Xo(i; ) 被 省 略 了 ,这 是 因为 PH 假设 的 缘故 。( 因 而 ， 
这 一 模型 中 的 截 距 是 不 可 识别 的 .) 上 述 基准 风险 能 被 省 略 的 结果 提供 了 估计 局 的 


Pr[ T,=#;|R(;) j= 
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基础 。 然 而 ,我 们 必须 控制 出 现 持续 期 限 分 组 时 可 能 发 生 的 结 持续 期 限 。 

当 对 持续 期 限 进行 分 组 时 ,更 有 可 能 产生 结 。 寿 数据 包括 结 (也 就 是 说 ,在 特 
定时 间 有 一 个 以 上 失效 发 生 ) , 则 需要 加 以 调整 。 假如 在 时 间 t; 处 有 两 个 结 , 个 体 
让 1 与 jo 具有 回归 元 zj 与 xjz。 如 果 九 在 ji 之 前 失效 ,那么 其 概率 是 ， 


5Gm ,G)/ >》 gx ,G) + $Cx258)/ > $ (XO) 
LE RG ) LE RL,) 


其 中 , 当 实 验 者 方 被 排除 时 ,Ri (4,) 等 于 RG)。 当 j 在 广 之 前 失效 时 ,会 产生 类 
似 项 ,而 似 然 贡 献 则 是 这 两 种 可 能 性 之 和 。 一 旦 出 现 许多 结 ,准确 似 然 变 得 相当 
复兴 。 z 


归 因 于 布雷 斯 洛 (Breslow) 和 皮 托 (Peto) 的 标准 近似 ,参见 考 充 斯 和 奥 克 斯 
(Cox and OQakes，1984), 设 : 


"ep $m 
[ 2 ieRc,) px, BB) ] 2 


其 中 ,D(z;) 表 示 在 时 间 i; 处 死亡 的 实验 者 集合 ,而 d; 表示 在 时 间 i; 处 死亡 的 数 
量 。 人 倘若 在 时 间 去 处 失效 的 数量 相对 于 风险 数量 而 言 很 小 , 则 这 种 近似 会 表现 
很 好 。 

考 克 斯 把 偏 似 然 函数 定义 成 个 有 序 失效 时 间 上 的 联合 乘积 Pr[ T= 二 1 |7E€ 
R(z;) ]。 于 是 ,有 : 


Pr T,;=t; |; ER ) ~ (17.31) 


本 epo， ) $b (Xm » [9) 
BT a [| Zerc, ,bX OB) 


考 殉 斯 提出 通过 极 小 化 对 数 偏 似 然 函 数 


(17. 32) 


In L, = _ yi ln $m,B) — dln( 之 gx ) | (17. 33) 


7 二 1 mE De ) 


来 估计 B。 删 失 时 期 仅仅 出 现在 ln L, 中 的 第 二 项 ,这 是 因为 对 观测 到 的 死亡 来 说 
它们 没有 贡献 ,一 直到 它们 被 删 失 为 止 , 都 会 影 啊 到 风险 集合 的 大 小 。 式 (17. 33) 
被 重新 写成 : 


N 
InL,(B) 一 > olingoxyG) 一 In( >) $x,B)) | (17. 34) 
+ 一 ] LE Rt ) 


其 中 ,对 于 未 删 失 观测 值 指 示 变 量 有 6 二 1, 人 否则 有 6; 二 0。 
就 通常 设 定 $xX, 3)=exp(x 8) 而 言 , 有 In CCx,G) 一 X ;, 故 得 到 的 一 阶 条 件 
为 : 


= = Pax —x (9)] 一 0 


其 中 心 (8) ee t; 处 位 于 风 
险 中 的 实验 者 的 回归 元 x 的 加 权 平 均值 。 
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偏 似 然 是 有 限 信 息 似 然 , 这 是 因为 基准 风险 io (7) 被 省 略 了 , 它 既 不 是 条 件 似 
然 , 也 不 是 边缘 似 然 。 统 计 学 文献 中 ,对 L, (98) 是 否 是 有 效 似 然 函 数 进行 了 大 量 
讨论 。 可 以 证 明 [ 安德森 等 人 (Andersen，et al. ，1993) ,尽管 In L, 不 是 完整 肯 
数 , 但 求 ln L, 极 大 值 的 估计 量 8 却 是 一 致 的 。 也 可 参见 卡尔 布 弗 莱 伟 和 普 伦 蒂 斯 
(Kalbfleisch and Prentice，2002 ,第 91 一 101 页 ) 以 及 兰 开 斯 特 (Lancaster，1990， 
第 9 章 )。 
借助 于 类 似 ML 情况 ,A(B) 二 一 BC(B) 进 行 简化 ,可 应 用 第 5 章 极 值 佑 计 的 结 
果 , 因 此 有 : 
~ a oa* ln I 1 
BEN|B, (一 EL 区 区) | (17. 35) 
虽然 针对 完全 参数 PH 模型 诸如 威 布尔 模型 ,把 MLE 与 偏 似 然 估 计量 加 以 比较 ， 
揭示 出 损失 了 相对 很 小 的 有 效 性 ,但 估计 量 却 是 无 效 的 。 


17. 8.3 考 克 斯 PH 模型 的 生存 月 数 


许多 研究 都 停留 在 对 6 的 估计 上 ,内 容 涉 及 利用 式 (17. 28) 或 式 (17. 29) 测 量 
回归 元 变动 对 基准 风险 的 影响 。 而 另 一 些 研 究 则 对 基准 风险 函数 的 形状 感 兴趣 。 
对 于 PH 模型 ,通过 求 偏 似 然 极 大 值得 到 8, 就 可 能 得 到 基准 风险 函数 或 生存 函数 
的 非 参 数 估 计 。 这 种 估计 类 似 于 17. 5. 1 节 中 的 卡 普兰 一 迈 耶 估计 量 。 


利用 S(t | xX, /3) 一 exp| 一 | 2 CDgCGx;G)as | ,并 定义 So (£) -一 exp| 一 | 4s)d | » 
我 们 得 到 与 PH 风险 肾 数 有 关 的 生存 函数 : 


S(t|x, 8)= So Ct) sD 
现在 ,假定 离散 时 间 公 式 在 离散 失效 时 间 汪 处 具有 基准 风险 率 1 一 o ,j 一 
$B) - 2, $x BO), j= 1,.…,k (17. 36) 
1€E DG) 1 一 Gt mE R(t;) 

的 解 , 其 中 8 是 8 的 偏 似 然 估计 量 , Dz) 表示 在 时 间 i 处 死亡 的 实验 者 ,而 RG(z;) 
表示 在 时 间 i; 处 位 于 风险 之 中 的 实验 者 。 由 17. 3. 3 市 对 离散 时 间 风 险 的 讨论 大 
道 ,基准 生存 数 S60z) 二 Tj, <ai, 即 瞬时 条 件 生存 概率 的 累积 乘积 。 于 是 ,估计 基 

准 生 存 项 数 是 : 


$1t) = [la (17. 37) 


lt; St 


若 不 存在 回归 元 , 则 So (zo) 简 化 成 卡 普 兰 一 迈 耶 估 计量 , 即 正 规 化 $(x,B) 一 1, 同 
时 表达 式 得 出 风险 率 1 一 &; 二 dj/r;。 人 倘若 有 回归 元 但 没有 结存 在 , 则 由 表达 式 得 
出 ,风险 率 1] 一 &aj 二 $(xj， B/D nerc) pOX ， O) 。 

对 于 具有 回归 元 x 二 x* 的 个 体 来 说 ,生存 吗 数 可 利用 


SC 和 ,DG) 一 So (1) ,A 
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加 以 估计 。 回 归 元 的 线性 变换 并 不 会 改变 B 的 估计 值 ,只 是 线性 变换 会 改变 基准 
风险 函数 。 例 如 ， 
A(t|x, 8) = (t)exp(x 8) 
—Ao(t)exp(¥ BF)exp( (x—¥) 0B) 
—A(t)exp((x—x) B) 


其 中 ,新 的 基准 风险 是 (iexp((x 一 x) B) 。 因 此 ,对 每 个 回归 元 都 减 去 样本 均 
值 ,将 改变 基准 风险 , 故 在 解释 基准 风险 清 数 或 生存 也 数 时 ,需要 小 心 谨慎 ，。 

另外 ,尽管 估计 基准 风险 对 于 计算 和 比较 特征 个 体 分 组 来 说 是 有 用 的 ,但 它 可 
能 表现 出 非常 的 不 连贯 特性 ,为 了 令 解 释 容易 理解 ,可 对 它们 进行 某 种 光滑 处 理 。 


17. 8.4 生存 肯 数 的 扒 寻 


小 着 卡尔 布 绅 药 金 和 辣 伦 蒂 斯 (Kalbfleisch and Prentice，2002 ,第 114 一 118 
页 ) 线 索 ,我们 得 到 由 式 (17. 36) 给 出 的 a; 的 估计 方程 。 
持续 期 限 为 i; 的 实验 者 具有 如 下 似 然 贡 献 , 即 生 存 时 间 上 之 纪 -: 的 概率 减 去 生 
存 时 间 i 之 i 的 概率 。 这 就 是 : 
S(t |x, 8)— SC |x, BO) = So — So (tr1) 8) 
一 (ao So(tit1)) "A 一 So (tr) 


一 (aj gr 一 1 So (tr1) 8) 


这 里 ,用 到 了 Su (GD 三 由,w 王 arSo()。 

对 于 在 时 间 &; 被 删 失 的 那些 实验 者 来 说 ,其 似 然 贡献 是 生存 i 汪 i 的 概率 ,或 
者 Sobtj41)s*%*2)。 因 此 ,在 [i ,zj-1) 内 要 么 死亡 要 么 被 删 失 的 实验 者 贡献 概率 
So (ti41)?5 有 D 一 [i_1af*8) ,对 于 死亡 实验 者 ,具有 额外 乘 子 (of 4 一 1)。 于 是 ,在 
全 部 失效 时 间 上 , 似 然 销 数 是 : 


L(a ,8) 一 IIT ]1 (ga 加) 一 ]) [TE Qj ?| 
7 一 ] LE DG mE R(t;) 
对 数 似 然 函 数 是 : 
InL(a ,8B) = ST >》，ln(aryw'0) 一 1) 十 2 — $x B)1na, | 


7 一 ] iE DU) ER 学 


从 而 ?ln LCa ,所 /9a; 一 0 能 重新 写成 式 (17. 36) 。 
17.9 时 变 回 归 元 


上 述 结果 局 限于 回归 元 为 如 下 变量 的 模型 :比如 性 别 回归 元 变量 ,对 不 同 个 体 
来 说 是 变化 的 ,但 对 已 知 个 体 来 说 则 不 随时 间 变 化 。 在 其 他 标准 的 模 截 面 模型 庄 
如 logit 模型 与 Tobit 模型 中 ,这 是 一 种 标准 情形 。 不 过 ,对 于 生存 数据 ,一 些 个 体 
在 时 期 的 几 个 阶段 上 都 可 以 被 观测 到 ,而 有 关 回 归 元 在 某 个 时 间 中 可 能 取 不 同 的 
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一 些 值 。 例 如 ,在 医学 生存 研究 中 ,处 方剂 量 水 平 对 已 知 个 体 可 能 随时 间 而 变化 。 
在 失业 时 期 期 间 , 失 业 救 济 金 或 许 以 离散 方式 变动 。 在 寻找 工作 时 , 某 人 的 婚姻 状 
态 可 能 变化 。 

使 用 时 变 协 变量 可 能 会 产生 两 类 问题 。 第 一 类 问题 ,很 明显 是 将 时 变 协 变量 
错误 设 定 成 固定 变量 。 协 变量 在 某 个 时 期 上 的 整个 历史 是 相关 的 ,需要 考虑 的 事 
可 能 要 求 我 们 将 某 些 回归 元 的 疗 后 值 合并 到 风险 率 的 决定 因素 之 中 。 第 二 类 问 
题 ,时 变 协 变量 可 能 表现 出 反馈 特性 ,因此 ,可 能 不 是 严格 外 生 的 ,在 持续 期 限 模型 
中 人 们 经 党 做 出 如 此 假定 。 例 如 ,失业 时 期 的 持续 期 限 可 能 依赖 于 个 体 寻 找 工作 
策略 ,而 后 者 当 失 业 持 续 期 限 延 长 时 可 能 会 改变 。 第 二 个 例子 是 ,治疗 的 药剂 量 水 
平 会 随 病人 的 病情 变 坏 或 改善 而 变化 。 确 定性 时 间 变 化 很 容易 加 以 处 理 , 因 此 , 标 
准 分 析 仅 仅 考 虑 到 上 述 两 类 问题 中 的 第 一 类 ,需要 做 出 协 变 量 是 弱 外 生 的 假设 ;也 
就 是 说 ,无 论 支 撑 时 间 变 化 的 过 程 是 随机 的 还 是 确定 的 ,我们 都 不 需要 考虑 估计 风 
险 模型 时 所 处 理 的 参数 。 一 些 作 者 [比如 ,卡尔 布 弗 芋 爸 和 普 伦 幕 斯 (Kalbfleish 
and Prentice，2002 ,第 196 一 200 页 ) 将 这 类 时 间 变 化 称 为 外 部 的 。 于 是 ,把 内 生 
时 变 协 变量 称 为 内 部 的 。 

特别 地 , 当 某 软件 包 不 能 处 理 时 变 协 变量 时 ,一 种 相当 简单 的 求解 方法 是 ,时 
变 协 变量 的 时 期 平均 值 代 替 时 变 协 变量 。 不 过 ,好 的 软件 包 都 会 给 出 较 大 灵活 性 。 

考察 某 个 个 体 从 最 初 持续 到 时 间 工 的 失业 时 期 ,在 此 期 间 可 以 观测 到 转换 为 
就 业 状 态 。 设 0<< 放 <5< 工 ,其 中 心 tz 以 及 ts 都 是 此 时 期 的 中 间 上 点。 假定 有 
两 个 协 变量 zi 与 zz (2) ,它们 分 别 是 时 不 变 的 与 时 变 的 。 为 了 简单 起 见 , 假 定 zi 
为 二 值 的 ,而 zz 在 阶梯 形 区 间 [0,zi) [t,t2)、[Ltz ,了 本) 分 别 取 从 为 zz (1t1)、x2 (ts )、 
Zz3(t3)。 而 且 , 假 定时 变 回 归 元 是 外 生 的 或 时 间 变 化 形式 是 确定 的 。 那 么 ,就 这 个 
特定 时 期 而 言 ,能 将 数据 写成 如 下 三 行 记录 ,而 不 是 一 行 记录 : 


持续 期 限时 间 
观测 值 持续 期 限 I Zz2 (1) 删 失 指示 变量 
] a ] 2 (£1) 0 
1 2 ] X2 (tz) 0 
! 1 1 x (TT) l 


对 于 这 种 信息 的 解释 是 ,我 们 可 将 观测 到 的 全 部 持续 期 限 划 分 成 三 个 时 上 段 。 
在 第 一 个 与 第 二 个 时 段 期 间 , 协 变量 值 分 别 是 (1，zz (#1)) 与 (1， zz (tz)), 并 且 没 有 
观测 到 就 业 转 换 ( 因 此 , 删 失 指示 变量 为 0) ,然后 在 第 三 个 时 段 期 间 , 协 变量 值 是 
(1，zz(T)) ,并 观测 到 就 业 转换 。 这 类 似 于 拥有 三 个 观测 值 情 形 ,其 中 两 个 持续 期 
限 被 删 失 了 , 而 第 三 个 持续 期 限 是 完整 的 。 

现在 ,假定 将 zz (的 当前 值 与 滞后 一 期 值 作 为 适当 的 协 变 量 。 也 就 是 说 ,在 
某 时 点 上 的 风险 率 可 能 依赖 于 协 变量 较 早 时 期 的 变化 。 于 是 ,将 此 类 数据 写成 如 
下 形式 : 
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| 持续 期 限时 间 
观测 值 持续 期 限 Ti To (1) x2 (t—1) 删 失 指示 变量 
l t] ] x2 (11) 0 0 
] t» 1 ZX (Ls) Xz (1) 0 
1 T 1 zx2(T) zz (tz) 1 





这 里 ,我们 假定 先 于 时 期 开始 的 zz (7) 之 值 为 0。 注 意 到 ,在 这 两 个 例子 中 , 协 变量 
Xz() 在 离散 时 间 点 上 变化 。 

人 尽管 人 们 在 数据 集合 中 拥有 多 行 元 素 , 但 如 果 软 件 以 将 各 个 元 素 处 理 成 为 各 
不 相同 的 观测 值 而 结束 ,那么 这 种 大 数据 集合 显得 元 长 并 存在 潜在 混淆 。 幸 运 的 
是 ,计算 机 软件 经 常 允 许 用 户 将 时 变 协 变量 识别 成 回归 模型 定义 的 一 部 分 。 对 于 
该 时 期 已 流逝 的 期 限 ,人 们 能 给 出 阶梯 函数 或 连续 函数 。 


17.9.1 推广 考 克 斯 模型 


容易 将 17. 8 节 的 考 克 斯 模型 固定 回归 元 分 析 推 广 到 时 变 回 归 元 上 。 
一 般 来 说 ,风险 函数 依赖 于 回归 元 x(Gt) 的 完整 时 间 路 径 , 因 而 有 : 


Pr[t ST <Zt+At|x(t),T > 


AL XCE) ) 一 lim 和 


我 们 考察 PH 形式 : 
ACt X00)) = (ts oa) Gx) ,6B) 


这 里 做 出 了 如 下 约束 :只 有 协 变量 x(t) 的 当前 值 而 不 是 x(z) 的 整个 历史 值 才 会 起 
作用 。 

很 明显 ,由 17. 8.2 节 的 考 克 斯 偏 似 然 方法 知 , 在 每 个 失效 时 间 z 处 ,起 作用 的 
是 风险 集合 RCz;) 中 那些 观测 值 的 回归 元 x(i;) 之 值 。 因 而 ,对 于 第 i 个 实验 者 ,用 
xi 5) 代替 x;。 偏 似 值 肾 数 有 类 似 恋 化 ,并 且 : 


inL, = 2 > ln gxn lt) ,BP — dln( 2) $0,),08)) | 
iE R(t) 
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注意 到 ,数据 形式 现在 更 为 复杂 ,因为 每 个 实验 者 都 具有 和 多重 观测 值 。 例 如 ， 
假定 时 间 取 离散 整数 值 ,只 有 一 个 回归 元 ,而 且 观 测 值 具有 完整 持续 期 限 25, 回 归 
元 为 z1, 它 在 L0, 5J 上 取 值 为 50, 在 [6, 15] 上 取 值 为 100, 而 在 L16, 25] 上 取 值 为 
200。 于 是 ,Xi1 (ft) 二 50, zi(tz) 二 100, xi(t3) 二 100, Xi (ti) 二 200, x (fts) 二 200, 


17. 10 ”离散 时 间 比 例 风 险 


当 失 效 时 间 以 加 总 时 间 区 间 比 如 周 或 月 份 的 形式 ,被 人 们 观测 到 或 记录 时 ,使 
用 分 组 持续 模型 就 更 为 恰当 。 

一 种 简单 方法 是 建立 面板 数据 ,并 对 每 个 时 期 中 个 体 失 效 概 率 的 堆放 logit 或 
probit 模型 加 以 估计 ,其 中 ,每 个 时 期 都 具有 各 上 自 截 距 。17. 10. 3 节 将 阐述 这 一 内 


ff/ 过 渡 数 据 :生存 分 析 


容 。 不 过 ,我 们 首先 阐述 连续 时 间 PH 模型 的 离散 时 间 变 形 , 参 见 布莱克 、 伦 德 和 
蒂 默 曼 (Blake，Lunde，and Timmermann，1999)。 
17. 10.1 亡 表 于 有 间 比 例 风 险 

对 于 带 有 分 组 点 ,a 二 1,… ,A 的 分 组 数据 ,其 离散 时 间 风 险 男 数 定 义 为 : 

A (| 一 Prl #t, RT < Tt X(t) |， a=1,.…,A 
允许 出 现时 间 回 归 元 。 相 应 的 离散 时 间 生 存 函 数 是 : 
Si(t, |x) = Pr[T>t |x| 一 IT (1 一 ACE |x(z,))) 
首先 ,我 们 得 到 离散 时 间 与 连续 时 间 风 险 之 间 的 一 般 关 系 。 离 散 时 间 风 险 是 


[Lai 加) 中 失效 概率 除 以 至 少 生 存 到 时 间 二 -时 的 概率 ,所 以 能 重新 写成 : 


S(L_ |x)— S(t, |x) 


d 一 
A (t, |x) SCG. [x) 


(17. 38) 


其 中 ,S(z1x) 表示 生存 函数 ,在 连续 情况 下 ,SCz|x) 一 exp(—| Cd) ,经 过 一 些 
代数 运算 之 后 , 式 (17. 38) 变 成 : 

MG 一 1 一 exp( 一 | 405)4s) (17. 39) 

现在 ,对 于 [2 ,ts) 中 的 i, 列举 与 连续 PH 模型 . 
A(1) =Ao(t)exp(x(t,_1)8) 
有 关 的 离散 时 间 风险 。 注 意 到 ,该 区 间 内 的 回归 元 为 常 值 ,但 对 不 同 区 间 来 说 却 是 
变化 的 ,而 Mo(5 在 区 间 内 会 变动 。 于 是 , 式 (17. 39) 变 成 .: 
Ma = 1—exp(—exp(x(t 1) 8B) X|” ols)ds (17.40) 
~ 1— exp(— Aoexp(x(ts 1) 8)) 
=~ 1— exp(— exp(ln Xho + X(t,_1) 8)) 


其 中 ,hs 一 | ”4s)ds。 有 关 的 离散 时 间 生 存 函数 是 ， 


a—] 
Si(t,|x) = [| exp(— exp(lnao; txt, 1) 8)) (17. 41) 
5 一 ] 


第 ; 个 实验 者 的 密度 是 ,存活 实验 者 每 个 时 期 的 生存 函数 的 乘积 素 以 失效 时 
的 风险 。 由 式 (17. 40) 与 式 (17. 41) 可 得 , 似 然 晒 数 是 : 


4; 一 ] 


N 
Lo ,Aon) = [[ | [expC— explnaot x(t 1)B8)) | (17.42) 
1 一 ] 5 一 ] 
X (1 一 exp( 一 exp(ln Aon 十 Xi 8))) 


其 中 ,为 了 简单 起 见 ,忽略 了 删 失 ,并 假定 第 i 个 实验 者 失效 发 生 在 时 间 t。 ,假定 至 
少 有 一 个 失效 发 生 在 每 个 区 间 [&-1,t,) 之 内 。 
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MLE 对 式 (]17， 42) 求 关于 el 与 Aoi 9 “0 的 极 小 值 。 在 特殊 情况 下 , 偏 似 然 
渐 近 地 等 价 于 MLE, 尽 管 它们 各 不 相同 。 更 为 简洁 的 模型 要 对 Mo ,… ,Xo 施加 某 
种 结构 ,比如 关于 时 间 为 多 项 式 的 。 甚 至 用 完全 参数 模型 ,诸如 威 布尔 模型 作为 更 
重要 的 结构 , 即 设 iu 一 |” uc 内 。 


dd—]} 


17. 10.2 脸 怕 和 窒 斯 坚 方 法 


哈恩 和 珍 斯 曼 (Han and Hausman，1990) 曾 经 提出 一 种 灵活 方法 ,重新 获得 
相对 容易 实施 的 基准 风险 ,他 们 的 这 项 研究 工作 早 于 布 菜 克 等 人 (Blake et al.， 
1999) , 却 类 似 于 迈 耶 (Meyer，1990) 与 末 吉 (Sueyoshi，1992) 。 尽 管 保持 协 变量 函 
数 的 参数 形式 [比如 exp(xXBG)], 却 考虑 到 了 基准 风险 Xl (2) 设 定 中 的 相当 灵活 性 。 
而 且 , 它 具有 明显 处 理 离 散 持 续 期 限 数据 以 及 提供 更 容易 适应 的 离散 数据 的 特性 ， 
庄 如 结 观 测 值 与 不 可 观测 异 质 性 的 框架 。 对 离散 数据 来 说 , 结 观 测 值 是 一 个 重要 
问题 ;例如 ,就 失业 持续 期 限 而 言 ,许多 失业 时 期 的 终止 ,可 能 与 失业 救济 金 时 期 的 
结束 相 一 致 (通常 ,在 美国 为 26 周 )。 

讨论 起 点 是 第 i 个 观测 值 的 风险 率 4;(7), 该 风险 率 表示 时 期 终止 于 区 间 
(t,t 十 入) 之 内 的 条 件 概率 ,以 PH 形式 写成 ， 


Ai(t)—=Ao (tr)exp(— XO) 


其 中 ,A (表示 基准 风险 。 于 是 如 同 式 (17. 20) 所 证 明 的 ,在 积分 之 后 取 对 数 , 然 
后 重新 整理 得 出 : 


Au(r) 一 XG 一 e， (17. 43) 


其 中 ,Ao (1) 一 In Xo(T)dr 表示 综合 基准 风险 的 对 数 , 而 & =In| X(t)dr。 从 而 , 概 
率 是 : 


Pr[ 在 时 期 失效 ] 一 | GL 


当 第 i 个 人 在 时 期 1 经 历 失效 时 令 y; 二 1, 否则 令 y; = 二 0。 那么 ,NN 个 观测 值 的 联合 
似 然 由 


in LC(B, Aoll),, Ao(T)) = > Dy, [| _D- 
i=1 ==] 


给 出 ,而 基准 风险 参数 (Au(1),……,Ao(T)) 与 加 前 是 以 种 灵活 方式 (也 就 是 说 ,在 
没有 施加 特定 函数 形式 的 条 件 下 ) 加 以 估计 。 

当然 ,对 数 似 然 的 积分 是 cdf[ Ao (一 1) 一 6 ,Ao (1) 一 xiB]] 的 差 。 这 种 表达 
式 的 精确 形式 依赖 于 cdf 的 郴 数 形 式 。 若 假定 随机 误差 es 服从 标准 正 态 分 布 , 则 
对 数 似 然 取 有 序 probit 形式 ;在 极 值 分 布 假设 下 ,对 数 似 然 取 有 序 logit 形式 。 具 
体 地 讲 , 在 正 态 性 下 ,第 i 项 的 积分 形式 为 ; 


Pr[ Ao (1) < BeSA tt1) =B(A (1) x — DA) —xB) 


vf de | (17. 44) 
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与 候 似 然 方法 一 一 把 基准 风险 处 理 成 元 余 函 数 并 且 剔 除 它 一 一 相 比 ,哈恩 和 豪 斯 
曼 (Han and Hausman，1990) 方 法 则 是 ,以 适度 的 计算 成 本 估计 出 所 有 未 知 参数 。 
他 们 的 蒙特 卡 罗 结 果 表 明 ,该 方法 灵活 ,并 且 能 很 好 地 逼近 任何 风险 函数 ,并 且 不 
要 求 强 的 函数 形式 假设 。 


17. 10.3 讽 表 肘 间 二 仙 闭 疤 


离散 持续 期 限 数据 的 另 一 种 方法 是 ,使 用 过 渡 的 二 值 选择 模型 ,这 是 因为 在 每 
一 个 离散 时 间 区 间 中 ,两 种 结果 都 是 可 行 的 , 即 该 时 期 要 人 么 结束 ,要 入 没 有 结束 。 
离散 时 间 过 渡 模 型 的 一 般 公 式 是 : 


Pr i,_,T<t, | TO ) xj 一 FL 十 X (1,1)8), CC 一 ]，…… ,人 (17., 45) 


这 种 设 定 是 将 回归 元 系数 限制 成 随时 间 变 化 而 为 常 值 ,对 截 距 4。 则 限制 成 随时 间 
变化 而 变动 的 ,a 一 1,…,A。 函 数 下 的 一 种 明显 选择 是 ,标准 正 态 cdf 或 逻辑 斯 带 
cdf。 于 是 ,参数 4 与 B 可 通过 全 放 logit 或 个 放 probit 模型 加 以 估计 ,其 中 ,每 一 
个 持续 期 限 都 允许 拥有 各 自 的 截 距 。 这 种 方法 由 于 简单 而 备 受 人 们 青睐 。 

所 得 到 的 似 然 项 数 是 : 


2; 一 | 


N 
La) = [TIO — FOr G6)) |x FA, +x (1)8) 
i==] s 一 ] 


除 对 函数 下 选择 以 外 ,这 类 似 于 式 (17. 42) , 即 离散 时 间 PH 模型 的 对 数 似 然 。 风 
险 (17. 40) 是 在 In Xo 十 x(ts_1) 8 处 计算 的 极 值 cdf, 所 以 式 (17. 40) 会 产生 互补 双 
对 数 模型 的 二 值 选择 模型 (参见 表 14. 3), 而 不 是 更 广泛 使 用 的 logit 或 probit 
模型 。 : 


17. 11 持 毋 期限 失业 例子 


下 面 的 实证 例子 运用 了 麦 考 尔 (McCall,1996) 的 数据 , 布 赖 恩 ，。 麦 考 尔 非常 慷 
慨 地 加 本 书 作 者 提供 了 他 曾经 研究 的 数据 。 这 个 数据 集合 来 自 1986 年 、1988 年 、 
1990 年 .1992 年 的 一 月 份 当 前 人 口 调查 的 替代 工人 供给 CDWS) 。 在 这 个 例子 中 ， 
我 们 把 测量 的 持续 期 限 ( 时 期 ) 称 为 失业 持续 期 限 ,更 准确 地 讲 , 它 代表 了 无 工作 的 
持续 期 限 ,因为 DWS 并 没有 提供 某 个 人 是 否 寻 找 工 作 的 信息 。 

就 这 种 应 用 而 言 ,; 需 要 关于 取代 后 第 一 次 工作 是 兼职 的 还 是 全 日 性 情况 的 信 
妃 。 为 了 确定 取代 后 第 一 次 工作 是 兼职 的 还 是 全 日 性 的 ,采用 下 述 方 法 。 若 某 个 
实验 者 在 调查 时 仍 处 于 那 份 工作 之 中 , 同时 若 此 实验 者 前 一 周 在 那 份 工作 的 每 周 
工作 小 时 数 小 于 35 个 小 时 , 则 取代 后 的 第 一 次 工作 被 称 为 兼职 的 。 

表 17. 6 定义 用 于 解释 无 工作 持续 期 限 的 重要 经 济 协 变量 。 模 型 中 估计 的 协 
变量 数目 相当 大 ,但 是 这 里 仅 列 出 重点 关注 的 一 个 子 集 合 。 麦 考 尔 (MecCall， 
1996) 给 出 更 为 完整 的 描述 。 
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表 17.6 失业 持续 期 限 :; 变 最 描述 


变量 名 称 变量 说 明 均值 
spell 无 工作 时 期 :2 周 区 间 6. 248 
CENSOR1 符 以 全 日 性 工作 再 雇用 , 则 为 ] 0. 321 
CENSOR2 若 以 兼职 工作 再 雇用 , 则 为 1 0. 102 
CENSOR3 若 再 雇用 却 失 去 工作 :工作 状态 未 知 0. 172 
CENSOR4 若 仍 无 工作 , 则 为 1 0. 375 
UI 车 提出 UI 申请, 则 为 1 0. 553 
RR 合格 取代 率 0. 454 
DR 合格 忽视 率 0. 109 
TENURE 占有 年 份 斑 失 工 作 4. 114 
LOGWAGE 周 工 资 对 数 5. 693 


失业 持续 期 限 以 两 周 时 间 区 间 进 行 测量 。 引 入 四 个 二 值 变 量 (CENSORI1， 
CENSOR2，CENSOR3，CENSOR4) 表 示 取 代 后 第 一 次 工作 的 状态 。 就 本 章 的 分 
析 而 言 ,我 们 使 用 CENSOR1。 因 而 ,大 某 个 人 以 全 日 性 工作 再 雇用 , 则 时 期 是 宛 
整 的 。 另 一 个 指示 变量 UI 用 作 表 示 实 验 者 是 否 提 出 失业 申请 。 取 代 率 , 即 丢 失 工 
作 的 每 周 救济 金 数 量 被 每 周 工资 数量 去 除 ,用 变量 RR 来 代表 。“ 忽 上 略 ” 被 定义 成 
如 下 门限 值 , 该 门限 值 取决 于 得 到 兼职 工作 的 失业 保险 的 接收 者 在 没有 减少 失业 
救济 金条 件 下 赚 得 的 数值 。 忽 略 率 是 忽略 被 失去 工作 时 的 每 周 工资 去 除 。 在 这 个 
样本 中 , 它 是 通过 变量 DR 来 描述 的 。 正 如 我 们 所 看 到 的 ,所 有 其 他 变量 都 是 不 言 
自明 的 。 

我 们 以 持续 期 限 数据 的 描述 分 析 开 始 。 最 简单 的 第 一 步 是 , 画 出 卡 普兰 一 迈 
耶 生 存 曲线 ,如 图 17. 3 中 的 黑 线 所 示 。 在 估计 卡 普 兰 一 迈 耶 生存 曲线 附近 , 细 线 
代表 17. 5. 2 节 曾 研究 过 的 95% 置 信 区 间 。 正 如 人 们 所 料 , 最 初 估计 生存 曲线 迅速 
下 降 ,然后 缓慢 地 下 降 。 
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图 17.3 失业 持续 期 限 :借助 于 实验 者 是 否 接受 失业 保险 而 得 出 的 估计 生存 明 数 。 数 据 与 图 
17. 3 中 的 一 样 。 


考察 表 17.7, 可 以 发 现 ,在 第 一 个 时 期 之 后 生存 概率 为 0. 91, 揭示 征 抽 到 的 个 
体 大 致 9% 在 开始 无 工作 时 期 的 前 两 周 结束 了 他 们 的 期 限 。 
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表 17.7 失业 持续 期 限 


时 间 生存 肾 数 累计 风险 
1 0.912 1 0. 087 9 
2 0. 854 1 0. 151 4 
3 0. 810 3 0. 202 7 
4 0.786 4 0. 232 2 
5 0.737 6 0. 294 3 
12 0. 597 4 0. 500 5 
13 0. 568 0 0. 549 6 
14 0. 5270 0. 621 9 
26 0. 365 1 0. 980 9 
27 0. 309 8 1. 132 5 
28 0. 309 8 1. 132 5 


在 图 17. 4 中 ,我们 通过 UI 即 实验 者 是 否 申请 失业 保险 , 画 出 生存 函数 。 而 
且 , 正 如 和 人们 所 料 , 它 表明 与 那些 没有 申请 失业 保险 的 人 相 比 ,申请 失业 保险 的 人 
更 可 能 处 于 失业 情况 。 
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17.4 “失业 持续 期 限 :借助 于 实验 者 是 否 接受 失业 保险 而 得 出 的 估计 生存 郴 数 。 数 据 与 图 


17. 3 中 的 一 样 。 


图 17. 5 中 的 纳尔逊 一 奥 伦 累积 风险 显示 出 风险 率 变异 很 小 ,可 变换 成 近似 线 
性 风险 。 若 未 经 整理 的 风险 率 变动 很 大 , 则 累积 风险 表现 了 非 线性 特征 。 

通过 UI 接受 所 引起 的 累积 风险 函数 揭示 了 预期 模式 ,如 图 17. 6 所 示 :与 那些 
申请 失业 保险 的 人 相 比 ,对 未 申请 失业 保险 的 人 来 说 ,此 风险 具有 较 高 风险 率 。 

下 面 ,我 们 考察 利用 协 变量 UI、RR、DR 和 LOG WAGE、 交 互 作 用 项 以 及 34 
个 其 他 回归 元 的 四 种 参数 模型 , 表 17. 8 与 17.9 没有 报告 出 这 34 个 其 他 回归 元 的 
系数 。 这 四 种 类 型 是 指数 、 威 布尔 、 崔 珀 医 以 及 考 克 斯 PH 模型 。 将 风险 限 数 瑟 成 : 


和 (| X) 一 人 0 (tf,a) $x, OB) 一 Ao (ia)exp(CX 8B) 
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总 累计 风险 合计 
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17.5 ”失业 持续 期 限 : 累 计 风 险 琐 数 估计 的 纳 尔 避 一 奥 伦 估计 。 数 据 与 图 17. 3 中 的 一 样 。 


UI 状态 下 的 累计 风险 估计 





1].50 





一 一 一 无 UL (UI = 0) 
~ 一 一 一 一 - 接收 UL(UI= 1) 


da ] .00 
区 i 
十 
呈 
0.50 
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图 17.6 失业 持续 期 限 ,借助 于 是 否 接 受 失业 保险 而 得 出 的 估计 累计 风险 隧 数 。 数 据 与 图 
17.3 中 的 一 样 。 


表 17.8 失业 持续 期 限 :由 四 种 参数 模型 得 出 的 估计 参数 


指数 威 布尔 四 珀 艾 考 克 斯 PH 

Var 系数 t 系数 t 系数 t 系数 t 
RR 0. 472 0. 79 0, 448 0.70 0. 472 0. 78 0. 522 0: 91 
DR 0.576 —0.75 一 0.427 一 0.53 一 0.563 一 0.74 一 0.753 一 ].04 
UI 一 1.425 一 5.7]1 一 1.496 一 5.67 一 ].428 一 5.69 一 1317 一 5.55 
FRRUI1 0. 966 0. 92 1. 105 1l.57 0. 969 1]. 58 0. 882 1. 52 
DRUI] 一 0. 199 一 0.20 一 0.299 一 0.28 一 0,211 一 0.21 一 0.095 一 0. 10 
LOOGWANG 0. 35 3. 03 0.37 2. 99 0. 35 3. 03 0. 34 3. 03 
CONS 一 4.079 一 4.65 一 4.358 一 4.74 一 4.097 一 4.698 一 一 
a 1. 129 
一 inL 2 700. 7 2 087.6 2 700. 6 一 
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表 17.9 失业 持续 期 限 :由 四 种 参数 模型 得 出 的 估计 风险 率 


指数 威 布尔 冈 班次 考 死 斯 PH 

Var el| t Te t fe t 加 
RR 1. 603 0.63 1.565 0.57 1.604 0.62 1.686 0.71 
DR 0.562 一 1.02 0.653 一 0.66 0.570 一 0.99 0.471 一 1.55 
UI 0.241 一 12.65 0.224 一 13.12 0.240 一 12.65 0.268 一 11.53 
RRUI 2. 626 1.01 2.760 0.99 2.635 1.01 2,416 1. 01 
DRUI 0.8]9 一 0.22 0.742 一 0.33 0.810 一 0.23 0.909 一 0.10 
LOGWANG 1. 420 2.56 1.441 0.08 1.42 2.55 1.40 2. 57 
a 1. 129 
—lnL, 2 700.7 2 687.6 2 700. 6 一 


回顾 ,指数 风险 假定 A (t,a) 二 常 值 二 exp(a), 对 于 某 个 常数 4a, 威 布尔 风险 假定 
Ao(t， a) 一 exp(a)at“'《 即 单 调 风险 ), 风 珀 淡 风 险 假 定 ho (t,a) 二 exp(a)exp(7t)， 
而 考 克 斯 PH 模型 没有 截 距 , 故 对 基准 风险 的 形状 没 做 什么 假设 。 前 面 已 经 提 及 ， 
这 里 的 公式 具有 比例 风险 形式 ,并 能 被 解释 成 参数 回归 模型 或 AFT 模型 。 在 这 种 
似 然 函数 的 参数 化 中 ,参数 (a,B) 是 待人 和 估 的 。 正 如 从 表 17. 8 看 到 的 , 威 布尔 模型 的 
拟 合 显 示 正 的 状态 相依 性 (a 二 1. 129 盖 1) ,也 就 是 说 ,时 期 终止 的 概率 随时 期 增长 
而 增 大 。 

对 于 考察 的 所 有 模型 来 说 ,只 有 UI 与 LOGWAGE 是 显著 的 ,而 其 他 协 变量 
则 是 不 显著 的 。 就 所 有 模型 而 言 ,UI 的 估计 系数 都 是 负 的 ,这 蕴含 那些 申请 失业 
保险 的 人 无 工作 的 时 期 终止 得 较 慢 。 对 不 同 模型 来 说 ,UI 的 估计 值 变 化 很 小 ; 威 
尔 布 模型 与 多 珀 获 模 型 中 的 UI 估计 值 ,在 绝对 值 意 义 下 ,大 致 大 于 指数 模型 的 
5% 与 0. 2%; 而 略 小 于 考 克 斯 PH 模型 的 8%。 类 似 地 , 就 所 有 模型 而 言 ， 
LOGWAGE 的 系数 估计 值 都 是 正 值 ,这 显示 该 值 在 各 种 不 同 模型 上 变化 非常 小 。 

在 生物 统计 学 中 ,各 种 不 同 参 数 化 经 常 基于 PH 模型 来 使 用 ,而 在 经 济 计量 文 
献 中 ,普遍 做 法 是 报告 AFT 模型 的 风险 函数 系数 (a,B) 的 估计 值 。 注 意 到 ,风险 
比率 A(t|x) /ho l(t,a) 二 g(xX,B) 二 exp(x BB3)。 对 于 类 别 0/1 的 标量 变量 x+, 从 0 到 1 
的 变动 影响 由 exp(8) 一 1 给 出 ,这 测量 了 相对 于 基准 风险 的 影响 。 许 多 软件 都 为 
用 户 提 供 选 择 , 要 么 用 上 述 两 种 变量 之 一 估计 模型 ,要 么 同时 用 这 两 种 度量 估计 模 
型 的 选择 。 两 种 参数 化 的 相对 优点 ,已 由 克利 夫 斯 . 古 尔 德 和 吉 特 莱 斯 (Cleves， 
Gould and Guitirrez，2002) 讨 论 过 。 

考察 表 17. 9 中 的 指数 设 定 ， 其 系数 是 对 应 于 表 17. 8 中 的 指数 。 这 里 ,UI 有 具 
有 风险 比率 0. 241。 这 意味 着 ,属于 申报 失业 保险 的 实验 者 类 型 减少 了 基准 风险 
的 大 致 76 狼 风险。 类似 地 ,对 于 威 布尔 . 冈 珀 茨 以 及 考 克 斯 PH 模型 ,风险 分 别 减 
少 了 大 致 78% .76% 以 及 73 听 。 

对 于 这 个 例子 ,我们 考虑 右 删 失 ,并 忽略 不 可 观测 异 质 性 的 作用 。 因 此 ,从 三 
种 模型 得 出 的 结果 ,在 性 质 上 相似 。 不 过 ,被 包括 进来 的 相对 极 少 的 几 个 变量 系数 
都 是 显著 的 ,这 一 点 或 许 表 明 ,没有 被 解释 的 大 变异 (也 许 由 不 可 观测 异 质 性 引起 ) 
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是 一 个 严重 问题 。 此 问题 由 下 一 章 进一步 研究 。 


17. 12 应 用 人 研究 


绝 大 多 数 计算 机 软件 包 都 提供 参数 生存 分 析 计 算 机 程序 的 良好 选择 。 可 广泛 
利用 标准 的 非 参数 卡 普兰 一 迈 耶 生存 函数 估计 , 既 有 置信 区 间 的 ,也 有 无 置信 区 间 
的 ; 跷 有 数值 输出 的 ,又 有 图 形 输出 的 。 在 一 些 情况 下 ,生存 分 析 模 块 依据 特定 手 
册 表 现 得 充分 详细 。 例 如 ,阿莉 森 (Allison，1995) 提 出 SAS 系统 的 生存 分 析 实 用 
指南 ;克利 夫 斯 (Cleves, 2002) 等 人 给 出 STATA 的 指导 式 生存 分 析 指 南 。 这 些 指 
责 不 仅 解 释 执 行 特殊 程序 命令 的 原理 ,而 且 在 许多 情况 下 ,它们 提出 源 于 特定 数据 
特性 .可 供 选 择 参 数 化 以 及 对 结果 诠释 的 副标题 的 宝贵 见解 。 学 习 持 续 期 限 数据 
分 析 的 一 种 方便 途径 是 ,通过 利用 经 济 计 量 学 或 统计 软件 包 诸 如 LIHMDEP、 
SITATA、SAS 或 SPlus 里 面 的 例子 加 以 学 习 。 程 序 手 册 本 身 也 是 一 种 标准 模型 
的 恨 好 信息 来 源 。 


17. 13 文献 注释 


17.3 一 17.7 卡尔 布 旨 芋 舍 和 普 伦 蒂 斯 (Kalbfleisch and Prentice，1980， 
2002) 的 文献 已 是 生存 分 析 方 面 的 经 典 统计 文献 ,他 们 尤其 强调 考 克 斯 模型 。 其 他 
一 些 有 用 的 文献 包括 劳 利 斯 (Lawless,1982) . 考 克 斯 和 奥克斯 (Cox and Oakes， 
1984) ,以 及 现在 出 版 的 大 量 生存 分 析 的 统计 学 教科 书 。 关 于 贝 叶 斯 的 研究 ,参见 
易 卜 拉 欣 、 陈 和 和 森 哈 (Ibrahim，Chen, and Sinha, 2001)。 最 近 , 强 调 计 数 过 程 方法 
的 统计 人 研究 日 益 增多 ,详细 内 容 参 见 弗 菜 明 和 哈 林 顿 (Fleming and Harrington， 
1991) .安德森 等 人 (Andersen et al. ，19931) 。 

这 些 文献 都 非常 具有 挑战 性 ,尤其 是 后 者 。 兰 开 斯 特 (Lancaster，1990) 提 供 
生存 分 析 的 一 个 详尽 研究 ,尽管 表述 形式 却 是 相当 具有 技术 性 的 ,而 且 该 书 更 倾向 
于 后 两 章 所 述 的 过 渡 内 容 的 一 般 性 专题 。 对 于 社会 科学 家 来 说 , 像 兰 开 斯 特 一 样 ， 
阿利 森 (Allison，1984) 的 优秀 解释 涵盖 了 多 于 单 时 期 的 生存 分 析 。 对 微观 经 济 计 
量 学 实践 者 来 说 ,由 基 弗 (Kiefer，1988) 撰 写 的 综述 则 是 一 个 良好 的 开端 

17.8 ”对 于 偏 似 然 法 , 兰 开 斯 特 (Lancaster，1990) 已 经 给 出 一 个 深入 透彻 的 
讨论 。 

17. 10 ”关于 离散 风险 果 数 , 迈 耶 (Meyer，1990) 哈恩 和 豪 斯 曼 (CHan and 
Hausman，1990) 以 及 布莱克 等 人 (Blake et al. ，1990) 的 文献 都 是 有 益 的 。 这 些 文 
章 一 般 地 考虑 了 不 可 观测 异 质 性 ,下 面 一 章 将 讨论 这 个 专题 。 

17. 11 基 弗 (Kiefer，1988) 与 格林 (Greene，2003) 曾 列 举 一 些 经 济 应 用 。 参 
数 简 化 式 形式 持续 期 间 分 析 的 优秀 例子 是 ,由 兰 开 斯 特 (Lancaster，1979) . 纳 伦 德 
拉 内 征 、 尼 元 尔 和 斯 特 因 (Narendranathan，Nickell and Stem，1985) 、 栅 吉 妞 (Jag- 
gia,，1991c) 以 及 格 里 区 (Gritz,1993) 给 出 。 目 前 ,研究 重点 转向 计算 结构 更 加 复杂 
的 持续 期 限 模型 。 范 登 保 (Van den Berg,1990) 与 费 拉 尔 (Ferall,1997) 已 经 给 出 
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一 些 例子 。 持 续 期 限 分 析 的 绝 大 多 数 应 用 都 是 简化 式 模型 。 经 济 学 家 提出 结构 持 
续 期 限 模 型 :参考 文献 包括 兰 开 斯 特 (Lancaster，1990) 与 范 登 堡 (Van den Berg， 
2001) 。 范 登 堡 还 提供 了 PH 模型 经 济 理论 基础 的 有 趣 讨 论 。 持 续 期 限 数据 经 常 
利用 各 种 等 竺 时间 的 概念 加 以 分 析 。 图 纳 蒜 和 普 里 切 特 (Tunali and Pritchett， 
1997) 曾 经 运用 三 种 可 选择 的 概念 :日 历时 间 年 代 以 及 持续 期 限 。 


习题 


17 -1 [改编 自 萨 普兰 (Sapra, 1998)。] 证 明 , 第 一 类 帕 累 托 密度 为 f() 一 
al/[te ya >0, RD0 的 持续 期 限 数据 模型 是 一 种 加 速 失效 时 间 持 续 期 限 模 
型 ,但 它 不 是 比例 风险 模型 。[ 提示 :证明 ,lnz 可 被 表示 成 关于 & 一 exp(x'G ) 的 线 
性 函数 ,具有 可 加 异 方 差 误 差 。 

17 -2 [依据 兰 开 斯 特 (Lancaster,1979),] 对 于 下 述 每 一 种 情况 ,利用 持续 
期 限 密度 Fi x,0) 与 生存 函数 S(t|x,0) ,研究 N 个 观测 值 的 联合 似 然 的 适当 表 
达 式 。 

(a) 可 以 利用 独立 的 完整 持续 期 限 i; 的 样本 ,i 一 1,…, NN。 

(b) 样本 由 下 述 方式 生成 。 最 初 ,一 些 个 体 是 失业 者 与 被 采访 者 的 混合 体 。 
然后 ,他 们 在 h 个 时 期 之 后 被 重新 采访 。 选 出 的 个 体 失业 了 i 个 周 。 在 选择 与 采 
访 之 间 , 有 些 人 找到 了 工作 ,而 另 一 些 人 则 没 找到 工作 。 对 于 找到 工作 的 那些 人 来 
说 ,失业 时 期 的 终止 时 间 是 已 知 的 。 

(c) 此 情况 与 (b) 情 形 一 样 , 只 是 人 们 并 不 知道 失业 时 期 何 时 终止 。 

17 -3 (a) 利用 麦 考 尔 数据 集 的 50% 随 机 样本 ,通过 删 失 类 型 , 即 考 虑 过 渡 
到 全 职 还 是 兼职 的 就 业 形式 ,估计 卡 普 兰 一 迈 耶 非 参 数 生 存 与 综合 风险 函数 。 

(b) 硅 忽 略 时 期 终止 形式 的 删 失 变量 ,在 下 面 参 数 分 布 假设 下 : (1) 指数 ; 
(ii) 威 布尔 ; (ili) 对 数 logistic; (iv) 考 克 斯 PH ,估计 失业 持续 期 限 的 风险 模型 。 
这 里 所 用 的 协 变量 与 本 章 中 的 一 样 。 

Cc) 比较 模型 (一 (iii)， 并 讨论 哪 一 个 会 提供 对 数据 的 最 佳 拟 合 。 就 失业 时 

期 的 持续 期 限 独立 性 (风险 函数 的 形状 ) 而 言 ,每 一 个 模型 都 萤 含 什么 内 容 ? 
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18.1 引 论 


仓 在 大 量 统计 文献 与 经 济 计 量 文献 ,涉及 不 可 观测 异 质 性 这 个 专题 。 观 测 异 
质 性 意 指 回归 元 所 测量 的 个 体 间 的 差异 ,而 不 可 观测 异 质 人 性 意 指 所 有 其 他 的 差异 。 
这 两 种 因素 都 会 影响 到 生存 时 间 。 在 存在 不 可 观测 异 质 性 的 条 件 下 ,甚至 具有 全 
部 协 变量 的 相同 值 的 个 体 , 在 离开 已 知 状态 时 也 可 能 具有 不 同 的 风险 。 当 人 们 忽 
略 不 可 观测 异 质 性 时 , 它 的 影响 就 会 与 基准 风险 的 影响 相 混淆 。 

为 了 进一步 研究 ,考虑 一 个 著名 的 实证 例子 。 人 们 已 经 知道 ,来 自 失业 的 总 风 
险 率 是 一 个 关于 失业 时 期 长 度 的 下 降 苹 数 。 人 倘若 所 有 个 体 均 是 相同 的 , 则 这 萄 含 
负 的 持续 期 间 相 依 性 , 即 离开 失业 的 下 降 概 率 会 使 个 体 继续 失业 的 时 间 较 长 。 不 
过 ,假定 失业 总 体 中 有 两 种 不 同类 型 的 个 体 , 一 种 是 下 类 型 ( 快 的 ), 它 具有 常 值 风 
险 率 0. 4, 而 男 一 种 是 S 类 型 , 它 的 常 值 风 险 率 为 0. 1。 总 体 由 两 种 类 型 50/50 混 
合 而 成 。 那 么 ,对 于 100 个 下 类 型 人 员 ,我 们 观察 到 在 第 一 个 时 期 有 40 个 过 渡 , 第 
二 个 时 期 有 24 个 过 渡 ,而 第 三 个 时 期 有 14. 4 个 过 渡 。 对 于 S 类 型 ,我 们 在 第 一 个 
时 期 .第 二 个 时 期 和 第 三 个 时 期 分 别 观 测 到 10.9 和 8. 1 个 过 滤 。 因 此 ,总 的 过 湾 
比例 分 别 是 (40 十 10)/200= 二 0. 25、(24 十 9)/150 王 0. 22 和 (14. 4 十 8. 1)/117 = 
0. 192, 这 表明 ,下 降 总 风险 是 各 个 异 质 性 组 加 总 的 结果 ,各 组 自身 为 常 值 , 却 具有 
不 同 的 风险 率 。 准 确 表述 持续 期 限 独 立 性 , 则 需要 并 入 不 可 观测 异 质 性 的 模型 。 

在 线性 回归 模型 中 ,假如 异 质 性 与 回归 元 是 独立 的 , 则 不 可 观测 异 质 性 不 会 引 
起 复兴 问题 。 在 这 种 情况 下 ,条 件 均 值 没 有 变动 ,不 可 观测 异 质 性 被 并 入 误差 项 之 
中 ,从 而 不 存在 省 略 变 量 偏 倚 。 与 之 相 比 ,不 可 观测 蜡 质 性 在 持续 期 模型 中 通常 会 
引起 一 些 问 题 。 在 最 简单 模型 中 ,诸如 指数 模型 ,可 能 要 设 定 与 回归 元 不 相关 的 乘 
法 不 可 观测 异 质 性 ,以 此 使 条 件 均值 持续 限期 没有 变化 。 不 过 ,甚至 在 最 简单 情况 
下 ,条 件 风 险 消 数 确 实 变 化 了 ,而 当 已 知 存在 删 失 ,并 且 例 如 已 知 政 策 制定 者 的 关 
注 内 容 在 于 ,确定 退出 失业 率 如 何 随 失业 时 期 长 度 而 变动 ,而 且 条 件 风 险 肾 数 从 必 
要 性 考虑 要 加 以 建 模 。 

不 可 观测 异 质 性 的 作用 ,在 大 量 实证 研究 中 占据 着 探索 令 人 困惑 之 谜 与 问题 
的 核心 境地 。 尽 管 本 章 关 注 于 持续 期 限 模型 ,但 大 部 分 问题 仍 具有 更 一 般 的 意义 。 
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而 且 , 这 里 所 考虑 的 内 容 及 方法 与 所 有 的 经 济 计 量 模型 有 关 , 因 为 所 有 经 济 计 量 模 
型 都 会 从 模型 中 省 略 某 种 特定 个 体 的 无 法 观测 变量 。 其 他 章节 的 -- 些 重要 例子 ， 
包括 随机 哨 数 logit(15. 7 节 ) 、 样 本 选择 (16. 4 节 ) .计数 的 有 限 混合 (20.4 节 ) 以 及 
面板 数据 的 固定 效应 与 随机 效应 (第 21 一 23 音 )。 这 些 因素 被 妇 人 不 可 观测 异 质 
性 专题 之 中 。 在 生物 科学 中 ,还 使 用 胸 弱 性 (frailty) 术 语 。 在 实际 研究 中 , (乘法 ) 
不 可 观测 寞 质 性 测量 风险 率 ( 死 亡 率 压力 ) 的 增 大 或 减 小 ,对 已 知 个 体 相 对 于 平均 
水 平 个 体 而 言 产生 影响 。 特 定 个 体 异 质 性 不 必 是 时 不 变 的 ,但 在 横 截 面 模型 里 ,对 
这 样 假设 就 很 适宜 ，。 

重要 的 是 ,考察 这 类 不 可 避免 错误 设 定 的 后 果 。 由 普通 线性 多 元 回归 分 析 知 
道 ,一 般 地 讲 , 此 类 省 略 可 以 产生 省 略 偏 倚 。 在 持续 期 限 模型 中 ,作为 非 线性 和 不 
可 观测 异 质 性 的 分 析 就 显得 更 加 复杂 。 引 人 不 可 观测 异 质 性 导致 了 所 谓 混合 模型 
(mixture models) 中 的 一 类 重要 形式 ,混合 模型 上 共 是 此 类 众多 模型 称谓 之 一 。 本 章 
的 论题 , 既 涉 及 对 混合 模型 的 生成 与 分 析 , 又 讨论 省 略 异 质 性 所 引致 的 严重 后 果 。 

对 寞 质 性 与 真实 状态 相依 性 进行 辨别 已 是 一 个 悠久 问题 ,对 它 可 追 滴 到 对 关 
于 真实 与 表面 传染 加 以 探讨 的 历史 。 内 曼 (Neyman) 确 信 他 早期 的 观点 :纵向 数据 
可 能 从 经 验 上 讲 对 实施 这 种 辨别 是 必需 的 。 不 过 ,仅仅 利用 横 截面 数据 时 ,会 有 严 
重 依赖 于 强 参 数 假 设 的 倾向 。 最 新 的 研究 文献 突出 了 使 经 验 分 析 无 此 类 假设 之 
忧 , 并 对 文 持 模型 假设 的 有 效 性 进行 探索 。 

本 章 第 一 部 分 是 18. 2 一 18. 4 节 , 人 研究 基于 异 质 性 连续 分 布 的 混合 模型 。18.5 
节 阐 述 基 于 离散 异 质 性 的 模型 。18. 6 节 考 虑 来 自流 动 数 据 与 存量 数据 的 两 种 不 
同 持 续 期 限 概 念 之 间 的 关系 。 错 误 设 定 的 检验 以 及 忽略 异 质 性 问题 ,将 在 18. 7 节 
讨论 。18. 8 节 的 实证 例子 阐明 了 本 章 探 索 的 几 种 思想 。 


18.2 不 可 观测 卉 质 性 与 离散 度 


本 广 关 注 指数 模型 与 威 布尔 模型 中 的 不 可 观测 寞 质 性 。 我 们 考察 如 下 乘法 形 
式 的 不 可 观测 异 质 性 ,通过 积分 去 挥 它 后 ,使 条 件 均 值 没 有 变化 ,但 又 不 会 使 条 件 
方差 变 大 ,更 重要 地 讲 ,并 没有 寻 致 条 件 风险 函数 的 变化 。 同 样 , 对 盛行 的 服从 伽 
玛 分 布 异 质 性 的 威 布尔 模型 加 以 前 述 。 


18.2.1 海 侣 


要 考察 的 最 简单 模型 是 指数 持续 期 限 模 型 。 在 不 含 异 质 性 的 指数 回归 中 , 完 
整 时 期 i; 分 布 被 设 定 成 以 可 观测 的 弱 外 生 协 变量 x; 为 条 件 。 这 等 价 于 对 条 件 均 
值 函 数 设 定 成 非 随 机 的 :ELT|xj 二 exp(x 6 )。 在 混合 模型 里 ,我 们 反而 对 Ci; |x， 
vi) 分 布 加 以 设 定 , 其 中 ,附加 的 v 表示 第 i 个 观测 值 的 不 可 观测 异 质 性 。 人 简单 地 
讲 , 个 体 被 假定 成 随机 地 不 同 于 以 不 能 完全 由 观测 协 变量 加 以 解释 的 方式 。i; 的 
边缘 分 布 , 可 通过 对 v; 进 行 平均 来 获得 。 

必须 对 联系 # 与 (x;，,v;) 的 准确 函数 形式 加 以 设 定 。 一 种 广泛 运用 的 函数 形式 
是 ,具有 乘法 误差 的 指数 均值 。 例 如 ,考察 具有 不 可 观测 异 质 性 的 PH 模型 。 由 
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17.8 廊 , 我 们 具有 上 比例 风险 模型 (17. 25) 与 (17. 26) ,为 了 包含 乘法 项 vy 而 对 两 个 模 
型 加 以 推广 。 也 就 是 说 : 


AC(t|xX,y) =Ao texp(x Fy, v>0 
因此 ,我 们 能 获得 如 下 综合 基准 风险 的 表达 式 :“ 
Ao(t) 一 和 (Xexp( 一 X BB) (18. 1) 
| acodu =exp(— x BY |ACul x du 


In| | (wdu |= 一 XG 一 inv 十 s 


其 中 ,e 一 InjXCu1x,v)du 被 假定 成 与 回归 元 独立 的 且 具 有 删 失 时 间 形 式 的 。 一 个 


普 近 正规 化 约束 是 Elyvj 二 1。 当 v1 时 ,风险 率 大 于 平均 实验 者 ; 当 v<1l 时 ,风险 
率 小 于 平均 实验 者 。 独 立 性 假设 显得 太 强 ,而 且 未 必 现 实 。 同 样 地 ,乘法 异 质 性 假 
设 也 是 特 设 的 ,不 过 与 可 加 误差 相 比 ,这 种 形式 在 数学 上 处 理 方便 , 备 受 人 们 青睐 ， 
可 能 违背 i; 的 非 负 性 。 一 种 标准 方法 涉及 对 v; 分 布 进行 假定 ,然后 推导 出 ;边缘 
分 布 。 

乘法 异 质 性 具有 两 个 重要 月 有 关联 的 结果 。 并 不 令 人 感到 惊讶 的 是 ,混合 分 
布 的 (以 可 观测 变量 为 条 件 的 ) 方 差 大 于 其 母 分 布 的 方差 (以 可 观测 变量 和 异 质 性 
为 条 件 的 )。 也 就 是 说 ,使 方差 变 大 。 考 察 指数 均值 情况 。 用 : 


ur =ElLt|x:,v;) (18. 2) 
一 eXPCX:G )y; 
一 exp(X%DG)exp(esi ) 
一 expb( 记 十 si 十 XiG1) 


代替 jy 二 exp(x;B), 其 中 ,第 三 行 的 不 可 观测 异 质 性 项 v; 被 重新 定义 成 exp(si )， 
而 最 后 一 行 里 的 x:B8 项 被 分 成 截 距 项 与 斜率 项 。 最 后 一 行 可 解释 成 条 件 均 值 具 有 
一 种 随机 变化 的 截 距 (十 gs) 。 通 常 假 定 尖 是 iid 的 ,可 能 服从 已 知 函 数 的 分 布 ， 
同时 vi 与 x 是 独立 的 。 

假定 vi 是 iid, 满 足 ELy; 二 1 与 Viv;] 二 ww 。 这 里 假设 ELy; 二 1 使 得 对 截 距 识 
别 成 为 可 能 。 对 指数 密度 来 说 ,可 将 i; 的 矩 推导 成 Eli. | Xi yi | 一 pv; , 并 利用 A. 8 
方 关于 方 老 分 解 的 结 打 ,得 出 : 


Vz Nx = VL EC;|y ,xX;) | 二 TE, LV (ti |y; ,xX;)) (18. 3) 
=2VO) HV ) +1) 
=—py# L120 | 
> 


不 可 观测 异 质 性 促使 无 条 件 方 差 变 大 。 
18. 2. 2 ”选择 蜡 质 性 分 布 
考察 上 的 分 布 如 何 受 措 质 性 影响 。 这 要 求 我 们 从 SGzlx,y) 通过 积分 去 掉 异 质 
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性 项 "来 考虑 1; 的 分 布 。 通 常 ,y 的 参数 分 布 是 人 们 设 定 的 。 选 择 这 种 分 布 时 需 注 
意 什 么 呢 ? 

为 了 保持 性 质 “0, 我 们 用 正直 线 的 支 集 来 设 定 分 布 。 一 些 例子 包括 , 伽 玛 、 
逆 高 斯 以 及 对 数 正 态 。 

伽 玛 密度 (gamma density) 是 : 

gy30,k) = ex 一 3) ， y >0 (18. 4) 

此 有 具有 ELvj 一 &/6 有 旦 Vly 二 &/58 。 铬 进行 正规 化 , 则 令 有 二 6, 从 而 ELyj==1， 
Vivj 二 1/6。 从 数学 形式 上 讲 , 件 玛 假 设 方便 。 就 持续 期 限 建 模 而 言 , 它 也 用 于 一 
系列 流行 软件 包 之 中 。 

逆 高 斯 密度 (inver-Gaussian density) 是 : 


g(y;6,0)—=6r lexp(2800 ) exp(—O—/y), vy >0 (18. 5) 


它 具 有 EL 一 60 上 且 VL 一 860 /2。 若 进行 正规 化 9 二 这 , 则 得 到 EL =1 且 
VDj=1/20。 相 对 于 伽 玛 情况 来 说 , 逆 高 斯 分 布 有 较 大 的 尾部 概率 。 

这 些 不 一 定 产生 解析 形式 上 容易 处 理 的 上 的 边缘 分 布 。 正 如 将 要 看 到 的 , 某 
些 组 合 诸如 指数 与 伽 玛 ,或 者 威 布 尔 与 伽 玛 都 会 得 到 闭 形 式 边 缘分 布 , 而 另 一 些 组 
合 则 不 会 得 出 。 不 过 ,这 种 考虑 仅仅 是 数学 与 计算 机 上 的 方便 而 已 ,因此 不 必 非 得 
这 样 做 。 不 从 的 是 ,人 们 很 少 有 源 自 经 济 理论 的 持续 期 限 建 模 方面 的 指南 。 

第 二 个 考虑 是 一 般 性 与 灵活 性 。 伽 玛 模型 具有 相当 灵活 性 ,并 有 许多 引 人 注 
目的 性 质 。 然 而 , 逆 高 斯 模型 可 能 更 好 地 处 理 宽 尾 分 布 。 这 两 种 模型 都 是 单 参 数 
族 ( 正 规 化 之 后 ) 。 霍 高 (Hougaard，1986) 引 进 了 更 为 灵活 的 两 个 参数 族 ,该 族 具 
有 伽 玛 与 逆 高 斯 作为 特殊 情况 的 性 质 。 本 章 稍 后 还 提供 相当 灵活 的 离散 ( 非 参 数 ) 
表示 式 。 


18. 2.3 威 布 尔 一 徊 玛 混 合 


其 次 ,我 们 考虑 流行 的 威 布尔 一 伽 玛 混合 (Weibull - gamma mixture) , 它 能 被 
特定 化 为 指数 一 伽 玛 情况 。 这 种 模型 是 混合 比例 风险 (MPH) 模 型 的 一 个 重要 特 
例 。 当 然 , 威 布尔 一 伽 玛 混合 具有 独立 的 关注 内 容 , 这 是 因为 它 拥 有 较 大 的 灵活 
性 ,尤其 是 可 以 证 明 , 它 既 包含 递增 风险 又 包含 递减 风险 。 

关于 威 布 尔 模型 ,以 有 乘法 形式 v 为 条 件 的 生存 函数 是 ，; 


S(t|y)=expC—ut’y),， A>0,a 二 0 (18. 6) 


其 中 ,w 代替 第 17 章 使 用 过 的 a。 
无 条 件 生存 函数 是 由 平均 生存 函数 给 出 的 。 利 用 "的 密度 g (vy) 作为 加 权 也 
数 , 对 异 质 性 总 体 加 以 平均 ,得 出 : 


Sci 一 下 TS 二 | sc gC dy (18. 7) 


对 gCv) 的 不 同 选择 产生 了 各 种 不 同 的 混合 形式 。 在 既 有 连续 分 布 又 有 离散 分 布 
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的 情况 下 ,只 需 对 解释 做 出 适当 变化 就 有 效 。 式 (18. 7) 的 积分 可 能 没有 解析 解 。 
例如 ,者 g(v) 是 对 数 正 态 密度 , 则 积分 确实 没有 解析 解 ,但 如 果 它 是 伽 玛 分 布 ,就 
存在 解析 解 。 为 了 数学 处 理 方便 ,我 们 以 下 述 的 佑 玛 情 况 开始 研究 


已 知 佑 玛 异 质 性 ,无 条 件 生存 函数 是 : 
S(1) = | expC— pt%) xb) (18. 8) 


一 -| /exp(— v(t" + 0)) dy 
为 了 获得 混合 密度 ,我 们 要 求解 此 积分 。 设 ut* 十 6 一 B, 得 出 . 
SG) = 上 | “exp yB) dy 
定义 y= vB, 因而 dv=B cy , 并且: 


_ | 1 _ 
S(t) 7 2 exp(— y)dy 


rk) 
I'Ck) (Cut + ©) 


= (ut to 
二 [1 十 (ptr/0)]* (18. 9) 


其 中 ,第 二 行 用 到 Tr(k) 的 定义 ,并 代入 B 而 得 到 。 
无条件 持续 期 限 密度 可 通过 对 1 求 微 分 ,并 用 一 1 乘 获 得 ,从 而 :; 


f(D =— Spate [lt pt /J at (18. 10) 
无 条 件 风 险 函 数 1 = FASCD) 是 : 
ACD = Spat 1+ pe /8 (18. 11) 


通过 设置 " 的 均值 为 1, 对 这 些 一 般 表达 式 加 以 特定 化 研究 ,也 就 是 说 , 设 & 二 
,正规 化 为 ELyj] 二 1, 从 而 得 到 下 述 威 布 尔 一 颁 玛 混合 形式 的 表达 式 : 


SC 一 [1 十 (we7/G) (18. 12) 

, | 
访 D) 一 一 -全 一 pat [1 十 (Cut /0) | BTL (18. 13) 
A = — TD ge 1+ pe /0)] (18. 14) 


当 方 差 1/6 趋 于 0 时 ,就 趋 于 威 布尔 风险 明 数 。 

威 布尔 模型 允许 出 现 递 增 风 险 或 者 递减 风险 ,只 是 从 约束 形式 上 看 ,要 假定 在 
个 体 水 平 上 拥有 条 件 单调 风险 。 不 过 ,这 种 混合 分 布 在 经 济 计 量 学 文献 中 仍然 十 
分 盛行 ,主要 因为 它 具 有 方便 的 性 质 ,参见 兰 开 斯 特 (Lancaster，1979), 纳 伦 德 拉 
内 森 . 尼 克 尔 和 斯 特 思 (Navendranathan，Niclcell, and Stern，1985) 。 
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为 了 专门 研究 指数 一 伽 玛 混合 的 结果 , 设 c 王 1。 从 而 得 出 SC) = 二 [1 十 
Cpt/0)] ,了 (0) 二 py[L1 十 Ct/8)J] etb ,而 且 和 GD 一 wL1 十 Cut 。 指 数 一 伽 玛 
混合 分 布 , 即 著名 的 第 二 类 帕 累 托 分 布 , 与 指数 分 布 相 比 ,其 尾部 拥有 更 大 的 质量 。 
两 者 之 间 的 区 别 依 赖 于 方差 1/6。 只 有 当 6 r+ 时 ,r 阶 窃 才 存在 。 


18. 2. 4 泥人 风险 阴 数 的 解 妓 


经 济 应 用 中 的 一 个 重要 问题 是 ,持续 期 限 相 依 性 在 持续 期 限 数据 中 是 正 的 还 
是 针 的 。 例 如 , 当 失 业 时 期 长 度 增 加 时 ,退出 失业 的 概率 是 会 变 大 (比如 ,因为 工人 
的 保留 工资 下 降 ) ,还 是 会 变 小 (比如 ,工人 被 看 成 是 有 害 商 品 ) 呢 ? 在 iid 情况 下 ， 
这 很 容易 利用 非 参 数 估计 方法 建立 起 来 。 不 过 ,对 于 非 iid 情况 ,原始 数据 中 的 递 
减 风险 归 因 于 对 各 个 不 同 个 体 进行 加 总 ,其 中 ,每 一 个 个 体 都 具有 独立 的 常 值 风 险 
值 , 或 者 归 因 于 每 一 个 个 体 的 递减 风险 。 对 这 两 者 情况 加 以 区 分 很 困难 。 

竹 指 数 徊 玛 混合 条 件 下 ,考察 存在 不 可 观测 异 质 性 时 对 风险 函数 进行 解释 的 
问题 。 注 意 到 ,其 至 如 果 个 体 风 险 ( 比 如 ,以 vy 为 条 件 的 风险 ) 在 wp 处 为 常 值 ,那么 
对 风险 (的 平均 或 加 总 关于 上 是 癌 下 倾斜 的 。 这 并 不 意味 着 ,个 体 风险 率 存 在 
负 的 持续 期 限 相 依 性 。 更 准确 地 讲 , 这 是 通过 对 那些 风险 率 随 机 地 存在 差别 的 个 
体 进行 加 总 而 引起 的 。 类 似 的 不 正确 解释 也 出 现在 威 布 尔 伽 玛 情况 中 。 在 这 种 情 
况 下 ,风险 滑 数 的 真实 斜率 依赖 于 ,但 平均 或 总 风险 肾 数 的 斜率 却 受 到 异 质 性 存 
在 的 影响 。 因 而 ,对 不 可 观测 异 质 性 的 忽略 ,会 导致 对 风险 函数 斜率 的 低估 。 这 个 
结果 看 起 来 相当 一 般 [ 参 见 兰 开 斯 特 (Lancaster，1990) ]。 萨 伦 特 (Salant,1977) 给 
出 了 对 这 种 现象 的 早期 推广 讨论 。 

这 个 结果 是 下 面 陈述 的 基础 [比如 ,参见 兰 开 斯 特 (Lancaster，1979) ; 赫 克 曼 
和 诗 格 (Heckman and Singer，1984a) |: 在 忽略 不 可 观测 异 质 性 条 件 下 ,对 风险 函 
数 的 估计 可 能 产生 严重 偏 倚 。 我 们 的 讨论 完全 出 于 对 风险 模型 中 不 可 观测 异 质 性 


的 检验 。 在 威 布尔 混合 模型 背景 下 , 考虑 S(1) = |exp (Cnty)g(v)dy 的 目 变 量 。 上 总 
风险 函数 是 : 


A(1) 一 一 


| 


0 ,pC v) J 
QALL | Sly) g(yv) y 


~ ayt” ELy|TT 守 7 
因为 ELy|T 写 tj 是 针对 那些 在 时 间 上 时 生存 > 的 平均 值 ,所 以 当 有 较 大 v 值 的 个 体 
比 有 较 小 v 值 的 个 体 更 快 地 离开 此 状态 时 , 它 一 定 随 时 间 而 递减 。 这 引起 了 总 风 
险 孔 数 的 斜率 变化 。 此 种 现象 也 被 认为 是 选择 性 偏 倚 (selectivity bias) (16. 5 节 ) 
的 形式 。 正 式 地 讲 ,v 关于 时 间 的 均值 可 写成 : 


E[y|TT 守 1| = | Leb gy) dh 


因此 ,就 威 布尔 混合 模型 而 言 : 
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DELvy| 了 之 引 vy” Exp(— ut"y) 
人 


十 out | exp TH) ey) | 
一 out (EL IT — (ELyIT > 1)?) 
= aout ! Viy|IT 守 1 (18. 15) 
<< 0 


所 以 ,忽略 异 质 性 导致 估计 风险 率 比 真实 风险 率 下 降 得 更 快 或 上 升 得 更 慢 。 
在 没有 措 质 性 与 有 异 质 性 的 模型 之 间 进 行 男 一 个 有 意思 的 比较 是 ,考察 协 变 
量变 化 对 风险 率 的 比例 影响 。 在 不 存在 异 质 性 条 件 下 ,有 : 


ln 一 lnaGete ')+lnea 
而 zj 的 变化 对 jy 的 比例 影响 是 : 


9 ln A ) 

-8 
这 是 比例 风险 模型 的 性 质 。 

考虑 到 不 可 观测 异 质 性 时 ,有 : 
InaA(t|1)=lnaAt ) 十 lna 十 in EL Td 
一 na 十 ln vv 十 (ae 一 1)linzt 十 In ELy| Tt 

注意 ,ln yx 一 XB 与 9E[y|T 之 i]/9xj 二 一 AteVEvT 避 8 ,就 威 布尔 混合 模型 而 言 
可 得 : 


:Vy|T> 
A) [1 eV Te (18. 16) 
ax; EL 了 之 要 
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此 结果 表明 ,已 知 异 质 性 ,z 变化 的 比例 影响 较 小 但 依赖 于 +, 因而 不 再 是 比例 风 
险 形 式 。 所 以 ,由 模型 得 出 的 估计 可 能 会 导致 错误 ,甚至 当 不 可 观测 异 质 性 项 与 所 
包括 的 协 变 量 并 不 相关 时 ， 

对 于 比 威 布尔 模型 更 一 般 的 模型 来 说 , 兰 开 斯 特 和 尼 殉 尔 (Lancaster and 
Nickell，1980) 曾 经 讨论 了 不 可 观测 异 质 性 的 类 似 结 果 。 


18.3 混合 模型 的 识别 


与 混合 模型 有 关 的 问题 是 一 般 的 识别 问题 (identification probiem) 。 已 知 单 
时 期 的 观测 数据 (z,x) ,这 个 问题 涉及 把 个 体 贡 献 分 解 成 基准 风险 的 平均 生存 概 
率 .不 可 观测 异 质 性 以 及 协 变量 的 逻辑 可 能 性 。 更 明确 地 讲 , 当 PH 模型 是 不 可 识 
别 时 ,将 个 体 贡 献 分 解 成 持续 期 限 相 依 性 与 不 可 观测 异 质 性 在 逻辑 上 行 不 通 。 如 
同 大 部 分 识别 讨论 一 样 ,要 对 公式 施加 某 些 约束 。 在 经 济 计 量 文献 中 ,已 经 对 ( 混 
合 ) 比 例 风险 情况 进行 了 详细 人 研究。 赫 克 曼 和 等 格 (Heckman and Singer,1984b)、 


df 混合 模型 与 不 可 观测 异 质 性 


= 


埃 尔 贝斯 和 里 德 (Elbers and Ridder，1982) 在 某 些 条 件 下 建立 起 MPH 模型 的 识 
别 。 范 登 堡 (Van den Berg，1982) 提 供 了 这 些 早期 证 明 及 后 来 探索 研究 贡献 的 优 
秀 讨 论 。 

对 MPH 模型 识别 的 讨论 开始 于 平均 或 加 总 生存 函数 (average or aggregate 


survivor function ) : 
Sci = E[SG |x,y))] (18. 17) 
= |exp(—vho CD $0 )g0) 


这 假定 了 如 同 式 (18. 1) 的 比例 风险 ,使 用 17. 8 节 的 PH 公式 , 却 没有 对 Au .4 或 者 
g 做 出 假设 .此 处 ,As(2) 二 | no(C9)ds。 当 已 知 数据 时 ,如 果 函 数 10 .5 和 都 是 唯一 


的 ,那么 称 该 模型 在 非 参 数 形 式 上 是 可 识别 的 。 我 们 加 上 修饰 语 “ 在 非 参 数 形式 
土 ”, 正 是 因为 对 函数 形式 没有 做 任何 假设 。 

观测 到 的 生存 时 间 出 现 变 异 , 这 归 因 于 协 变量 xv 以 及 持续 期 限 相 依 性 函数 
(基准 风险 ) 上 的 变化 。 识 别 性 意味 着 该 变化 有 唯一 分 解 。 对 识别 性 进行 证 明 必 须 
表明 ,这 些 各 自分 解 在 原则 上 是 可 识别 的 。 大 部 分 可 利用 的 证 明 , 都 运用 高 等 数学 
工具 去 验证 似 然 函 数 可 唯一 地 被 分 解 。 梅 利 诺 和 末 吉 (Melino and Saevoshi， 
1990) 已 经 给 出 一 个 较 简 明 的 证 明 。 

非 参 数值 计 所 要 求 的 条 件 如 下 :(i) 蜡 质 性 项 y 被 假定 成 时 不 变 的 ,上 且 与 x 分 
布 是 独立 的 ;(i) g(v) 是 非 退 化 的 ,并 具有 有 限 均 值 ( 即 EL[y] 过 00); (iii) $(x) 守 0， 
对 于 所 有 x; (iv) Ao《7) 在 L0，co) 上 连续 是 为 正 的 ;(v) 观 测 到 的 解释 变量 x 是 线性 
独立 的 ,并 有 充分 变化 。 各 种 不 同 的 证 明 在 这 些 条 件 上 具有 某 种 微妙 的 变化 ,不 
过 ,我 们 在 这 里 将 不 探究 这 些 问题 。 

非 参 数 识别 问题 涉及 数学 上 相当 深奥 的 内 容 , 此 问题 也 与 参数 模型 的 内 容 有 
关 。 倘 知人 们 设 定 参数 形式 诸如 hnCil a) .sxlG)、gCvlz)， 则 已 知 数据 时 ,这 些 函 
数 会 是 唯一 的 吗 ? 不 伴 的 是 ,在 许多 情况 下 ,回答 是 “否定 的 ”>。 这 意味 着 一 个 研究 
人 员 可 以 舍 计 一 种 特殊 混合 模型 , 而 不 考虑 计算 上 的 问题 , 却 关注 “良好 ”的 结果 与 
有 意义 的 系数 。 不 过 ,这 种 表示 可 能 并 不 唯一 。 男 一 个 研究 人 员 ,在 不 同 参数 假设 
下 ,可 能 会 得 出 等 价 的 良好 结果 , 却 具 有 不 同意 义 。 也 就 是 说 , 观测 到 的 生存 函数 
可 能 与 基准 风险 的 其 他 选择 及 异 质 性 分 布 相 一 致 [ 兰 开 斯 特 (Lancaster， 1990 ,第 4 
章 )]。 利 用 2. 2 节 的 术语 ,具有 本 质 上 不 同 政策 含义 的 不 同 结构 模型 可 能 拥有 同 
梓 的 简化 式 。 很 明显 ,这 对 参数 应 用 研究 提出 了 一 个 课题 。 一 个 引 人 注 目的 求解 
方法 是 ,选取 风险 与 异 质 性 的 灵活 参数 形式 ,或 者 采用 偏 似 然 分 析 的 半 参 数 方法 。 
本 节 将 继续 对 这 个 问题 进行 讨论 。 


18.4 异 质 性 分 布设 定 


关于 系数 估计 值 对 可 供 选 择 的 异 质 性 假设 的 敏感 性 问题 ,在 文献 里 得 到 了 广 
泛 讨 论 。 需 要 对 下 面 两 种 看 起 来 明显 矛盾 的 主张 加 以 辨别 : 
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1. 对 不 可 观测 异 质 性 的 参数 设 定 经 党 表现 出 一 些 任 意 性 。 这 样 的 设 定 严重 
地 扭曲 了 风险 函数 的 推断 。 因 此 ,参数 形式 上 灵活 设 定 或 非 参 数 设 定 是 人 们 所 希 
组 的 。 参 见 严 殉 曼 和 辛 格 (Heckman and Singer，1984a) 。 

2. 倘 夺 基准 风险 函数 被 正确 设 定 , 则 不 可 观测 异 质 性 的 参数 设 定 就 显得 相对 
无 关 崇 要 。 当 风险 浮 数 的 设 定 拿 不 准 或 者 是 不 正确 的 时 候 , 利 用 不 同 的 异 质 性 参 
数 假设, 则 会 产生 数据 边缘 分 布 的 各 种 不 同 估计 。 参 见 曼 顿 、 斯 托 拉 德 和 沃 佩 尔 
(Manton, Stallard, and Vaupel, 1986), 

这 两 种 观点 之 间 的 明显 矛盾 ,可 如 下 解决 。 对 风险 函数 进行 设 定 会 影响 到 
了 (2) 分 布 的 一 阶 矩 ,可 是 一 旦 假定 异 质 性 与 观测 到 协 变 量 不 相关 , 异 质 性 的 设 定 就 
影响 . 矿 忆 分 布 的 二 阶 第 。 当 风险 函数 得 到 正确 设 定 时 , 异 质 性 分 布 的 主要 影响 就 
体现 在 估计 量 的 相对 有 效 性 上 。 
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前 面 的 考察 提出 ,具有 任意 风险 函数 的 比例 风险 函数 要 使 模型 有 吸引 力 ,就 将 
它 与 特定 的 异 质 性 假设 相 结合 。 哈 恩 和 豪 斯 曼 (Han and Hausman，1990) 与 迈 耶 
(Meyer，1990) 都 曾经 将 由 17. 10 节 探 讨 的 离散 比例 风险 模型 与 伽 玛 异 质 性 假设 
结合 起 来 。 他 们 的 研究 表明 , 当 基 准 风 险 不 是 参数 化 估计 值 时 ,对 可 供 选 择 的 g(y) 
半数 形式 表现 出 很 小 的 敏感 性 。 

对 于 设 定 性 ,重新 考虑 包含 异 质 性 项 的 式 (17. 3): 


é; 一 In (Ja cnar)— Xi CO— vy 


将 它 代 入 对 数 似 然 表 达 式 (17. 44) 。 异 质 性 项 需要 通过 积分 去 掉 。 哈 恩 和 豪 斯 曼 
在 伽 玛 异 质 性 假设 下 给 出 闭 形 式 表 达 式 ,并 讨论 当 已 知 它 们 灵活 风险 设 定时 ,对 参 
数 假设 体现 出 相对 较 小 的 敏感 性 的 研究 成 果 。 


18. 4. 2 即 质 烨 的 其 他 模型 


前 面 讨 论 强调 , 威 布 尔 一 伽 玛 模型 具有 闭 形 式 这 种 方便 的 计算 特性 。 

如 果 观 测 到 的 边缘 分 布 的 尾部 比 与 佑 玛 或 对 数 正 态 情 交 相 一 致 的 尾部 要 厚 ， 
那么 人 们 可 以 考虑 曼 德 布 罗 特 (Mandelbrot) 分 布 的 稳定 族 成 员 。 霍 高 
(Hougaard，1986) 提 出 能 人 伽 玛 与 逆 高 斯 族 的 非常 一 般 族 [也 可 参见 贾 埋 娅 (Jag- 
gia, 1991b) ]。 严 格 稳定 分 布 服 从 下 述 条 件 :p 个 独立 实现 值 之 和 应 该 拥有 标 度 因 
子 乘 以 该 分 布 的 乘积 的 分 布 。 夫 高 (Hougaard，2000， 附录 3. 3) 给 出 了 此 类 性 质 
的 一 个 概括 。 

尽管 更 加 高 度 参 数 化 的 异 质 性 分 布 看 起 来 引 人 注 目 , 因 为 它 拥 有 较 大 的 一 般 
性 , 却 产 生 了 两 类 问题 。 一 类 问题 是 ,可 利用 的 数据 不 足以 允许 我 们 去 识别 或 准确 
地 估计 参数 。 首 先 ,在 不 试图 进行 估计 时 ,这 种 情形 经 常 被 人 们 所 忽略 。 

第 二 类 问题 是 计算 问题 。 若 混合 密度 没有 闭 形 式 , 则 它 就 以 积分 形式 出 现 。 
所 得 到 的 似 然 明 数 也 是 积分 形式 的 一 些 项 。 进 行 佑 计 就 需要 使 用 诸如 数值 积分 或 
蒙特 卡 罗 积 分 这 类 计算 机 密集 数值 方法 ,这 些 方法 已 在 第 12 章 讨论 过 。 需 要 此 类 
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估计 方 法 的 混合 模型 的 例子 是 威 布尔 对 数 正 态 混合 ,其 中 ,不 可 观测 异 质 性 服从 对 
数 正 态 分 布 。 蜡 质 性 模型 基于 模拟 估计 已 由 古里 耶 克 斯 和 蒙 福特 (Gourieroux and 
Monfort，199] ，1996) 讨 论 过 ,可 参考 12. 2 节 的 例子 


18.5 离散 卉 质 性 与 潜 类 别 分 析 


上 面 分 析 假 定 , 不 可 观测 异 质 性 具有 连续 分 布 ,同时 关注 该 连续 分 布 参 数 的 
估计 。 

一 种 可 供 选 择 的 方法 是 ,假定 个 体 样 本 从 有 限 个 潜 类 别 (latent classes) 比如 说 
g 个 构成 总 体 中 采样 ,而 样本 的 每 个 元 素 可 被 看 成 来 自 这 9 个 潜在 子 总 体 或 层 之 
一 。 这 类 模型 分 别称 为 有 限 混合 模型 、 半 参数 异 质 性 模型 (semiparametric hetero- 
geneity medel) | 赫 克 曼 和 辛 格 (Heckman and Singer，1984a) |] 以 及 潜 类 别 模型 
(jatent cjass model)| 艾 特 肯 和 和 鲁 室 (Alitlcen and Rubin，1985) ]。 该 模型 引 人 注 有 目 
的 特性 是 , 它 会 导致 灵活 的 参数 分 布 。 在 持续 期 限 模型 中 , 替 克 曼 和 尘 格 (Heck- 
man and Singer，1984a) 对 此 模型 加 以 分 析 .倡导 和 应 用 。 

虽然 这 些 流行 模型 是 在 持续 期 限 背景 下 阐述 的 ,但 为 了 突出 在 其 他 地 方 的 应 
用 ,可 使 用 一 般 性 记号 。 例 如 ,参见 20. 4 节 。 


18. 5.1 有 良 泥 全 模型 


考察 下 述 两 个 成 分 的 有 限 混 合 模 型 。 倘 奎 样本 是 来 自 两 个 子 总 体 的 具有 pdf 
(tp (C3) 与 fo(z1w(X%)) 的 一 种 概率 混合 , 则 xfi(*) 十 (一 xz) fo(*) 定 义 两 种 成 
分 有 限 混 合 , 其 中 ,0 二 x 硅 1。 也 就 是 说 ,观测 值 分 别 以 概率 与 1 一 x 从 f1(*) 与 
fz(*) 进 行 来 样 。 香 估 参 数 是 (x,p ;ps)。 参 数 xz 可 被 处 理 成 常 值 ,或 对 logit 郴 数 
进一步 参数 化 。 因 而 ,xz 一 expWby/[I 二 expOy 与 依次 利用 可 观测 苏 变 量 进 一 步 
参数 化 。 因 此 ,我 们 考虑 两 种 类 型 的 个 体 ,一 类 源 自 1.(*), 男 一 类 源 自 fo(*)。 
着 这 些 线 索 思 海 时 ,存在 一 个 先 验 情况 ,例如 ， 候车 其 个 潜在 特性 可 以 通过 这 种 广 
式 分 割 样本 总 体 。 一 种 可 供 选 择 的 解释 是 ,密度 的 线性 组 合 对 上 的 观测 分 布 给 出 
了 一 个 好 的 近似 。 

在 原则 上 ,对 于 具有 三 种 或 更 多 成 分 的 可 加 混合 的 推广 可 直接 进行 , 却 受 限 于 
淤 在 成 分 识别 性 问题 。 本 章 稍 后 将 进一步 讨论 该 问题 。 因 此 ,在 经 验 应 用 中 ,假若 
成 分 拥有 正常 解释 ,这 就 非常 有 益 。 在 最 简单 的 水 平 上 ,我 们 将 每 个 子 总 体 考虑 成 
“类 型 ”, 但 在 许多 情况 下 ,可 能 给 出 更 多 的 解释 信息 | 林 赛 (Lindsey，1995)j。 

有 限 混 合 模 型 的 另 一 种 解释 是 ,针对 总 体 异 质 性 的 离散 表述 。 假 如 总 体 由 mm 
种 同 质 子 总 体 组 成 ,这 样 的 子 总 体 通常 称 为 成 分 (components)。 假 定 诸如 威 布尔 
模型 或 指数 模 的 这 类 参数 模型 可 应 用 于 每 一 种 成 分 。 假 如 第 7 种 成 分 是 整个 总 体 
的 一 小 部 分 ri ,而 ZX 二 1。 

最 后 ,将 该 问题 系统 表述 如 下 :在 下 面 所 有 例子 中 ,不 可 观测 异 质 性 项 的 分 布 
都 具有 无 穷 多 个 支撑 点 。 如 果 连 续 混 合 分 布 g(v;) 能 通过 含有 有 限 m 个 支撑 点 的 
离散 分 布 加 以 逼近 ,用 大 人 =1，……m) 表 示 有 限 mx 个 支撑 点 的 分 布 ,那么 边缘 ( 混 
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h(t; | x; ,A; G) 一 Dy fi dx, A vy;) (18. 18) 
j=] 


其 中 ,vy; 表示 估计 支撑 点 ,mi 是 相应 的 概率 。 赫 克 曼 和 辛 格 (Heckman and Singer， 
1984a) 在 持续 期 限 建 模 中 考察 了 不 可 观测 异 质 性 的 半 参 数 表示 。 与 之 密切 有 关 的 
人 研究 工作 是 韦 德尔 等 人 (Wedel et al. ，1993) 做 出 的 ,这 些 研 究 对 港 类 别 的 解释 令 
人 满意 。 寿 混合 分 布 x 不 受 限 于 任何 参数 假设 , 则 称 混合 模型 为 上 的 半 参 数 混 合 
模型 。 

对 有 限 混 合 模型 的 估计 ,在 已 知 成 分 数目 或 未 知 成 分 数目 的 条 件 下 完成 。 若 
已 知 分 数 zx , 则 成 分 分 布 的 极 大 似 然 估 计 能 够 被 估计 出 来 。 更 一 般 地 讲 , 比例 x， 
j 王 1,…,m 是 未 知 的 ,并 且 估 计 既 涉及 xj, 又 涉 及 成 分 参数 。 后 一 种 情况 下 的 极 大 
似 然 估计 量 被 称 为 非 参 数 极 大 似 然 估计 量 (NPMLE)。 这 里 的 非 参 数 成 分 是 类 别 
个 数 , 但 严格 地 讲 , 它 是 半 参 数 方法 ,因为 它 融 合 了 成 分 的 参数 模型 。 当 成 分 个 数 
未 和 项 时 ,如 同 通 常情 况 , 就 会 产生 推断 的 某 些微 妙 问 题 。 详 细 内 容 参 见 18. 5. 4 节 。 

引出 有 限 混 合 类 别 的 一 种 明显 动机 是 ,这 是 一 种 自然 且 简 单 的 研究 总 体 异 质 
性 的 方法 。 在 许多 情况 下 ,利用 很 少 的 潜 类 别 个 数 , 考 虑 不 可 观测 异 质 性 比如 同 
18. 2 节 中 连续 性 “类 型 ”的 那 种 研究 更 为 简单 。 


18. 5. 2 潜 类 别 的 解 娃 


有 限 混合 模型 与 潜 类 别 分 析 (jlatent class analysis) 有关 | 基 特 肯 和 和 鲁 宾 (Aitkin 
and Rubin，1985); 韦 德尔 等 (Wedel et al. ,1993) |。 设 d; 二 (dj;,…,d,,) 定 义 一 
个 指示 (虚拟 ) 变 量 ,使 得 d; = 二 1(qd; 二 1) 表 示 t; 是 从 第 j 个 (潜在 ) 组 或 类 别 采 
样 的 ,i 二 1,…,N。 也 就 是 说 ,每 个 观测 值 可 被 认为 是 来 自 mx 个 潜在 子 总 体 、 类 别 
或 者 "类 型 "之 一 。 在 下 面 讨 论 中 ,我 们 假定 模型 是 可 识别 的 。 

此 模型 设 定 Gd) 服从 独立 分 布 , 具 有 密度 : 


Ddsf pj) 一 > fe | (18. 19) 
其 中 ,yw 二 AGO ,Bj;) ,ph - (WA jp 而 (d 4 ,x) 是 iid 的 并 服从 多 项 式 分 布 : 

0<m< Hn=1 (18. 20) 
最 后 两 个 关系 蕴含 : 

(ti | ,7 ) ED fy Ct) 
从 而 ,得 到 似 然 函 数 ， | 


NN mn 
LGBT 一 由 Sas fy (tp) (18. 21) 
i 二 ] 一 ] 
18. 5.3 EM 算法 


这 种 似 然 函 数 可 直接 求 极 大 值 , 或 利用 EM 算法 求 极 大 值 , 其 中 ,变量 d= 
(did,) 被 处 理 为 缺失 数据 ;参见 10. 3 节 。 倘 若 d 是 可 观测 的 , 则 模型 的 对 数 


似 然 是 : 


N mt N nm 
ln L(g | t,d) 一 一 >》， cl jn 方 (4 ;14; ) 十 > ci In Nj (18., 22) 
一] ;二 1] 


;一 1 j=] 


当 已 知 过] 时 ,7 二 1 一 ,mm, 则 观测 值 ti 属于 总 体 ; 的 后 验 概 率 ,j 二 1,…,m, 记 为 
zj ,定义 为 : 


> 三 (Cy; | 入 ; ,OB; ) 


zj 关于 i 的 平均 值 是 随机 选取 个 体 属于 子 总 体 ; 的 概率 。 这 等 于 , 即 ， 
El| z, | Xx; 
假定 我 们 已 知 ELadi 的 估计 值 2 。 那 么 ,以 此 估计 值 为 条 件 , 得 到 : 


Ti 三 Prl vy, CC 总 体 了 | 一 (18. 73) 


N mi nN mt 
ELCG ss Ba oT tsb, XK 一 > éln filtisp Bi) > zlna 
i 二 1] j=1 


i=] 7 一 1 


《18. 24) 
它 构成 了 EM 算法 的 下 步骤 。 该 算法 的 M 步骤 可 通过 求解 一 阶 条 件 
i ND) 二 0， J] 三 1,*…,m (18. 25) 
N m 
2 2 2 - 0 (18. 26) 
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来 求 EL 极 大 值 。 其 次 ,我 们 能 用 式 (18. 23) 得 出 区 的 一 些 新 值 , 并 通过 下 步骤 与 
M 步骤 进行 选 代 。 


18. 5. 4 刘 习 浴 类 惫 阁 量 


第 一 个 重要 问题 涉及 对 m 的 选取 , 即 成 分 个 数 。 通 常 没 有 先 验 理论 指南 ,而 
且 一 般 地 讲 , 选 取 者 是 建立 在 实用 基础 上 。 由 于 待 估 人 参数 个 数 是 m dim[ Bj 十 mx 一 1， 
所 以 参数 数目 相当 大 。 倘 大 对 6 的 某 些 元 素 限 制 成 相等 的 , 则 这 个 数目 或 许 会 减 
少 。 一 种 流行 的 方法 是 ,人 允许 截 中 变化 ,但 对 斜率 参数 约束 成 对 不 同 组 是 相同 的 
[如 同 式 (18. 18) 1。 不 过 , 硅 允 许 所 有 参数 随 不 同类 别 而 变化 ,很 明显 ,人 们 愿意 茧 
励 保 持 m 不 变 。 甚 至 仅 当 截 距 被 允许 变化 时 ,许多 应 用 都 使 用 mm 二 2。 一 种 切合 
实际 的 策略 是 ,以 m= 二 2 开始 ,然后 利用 诊断 检验 去 检查 模型 拟 合 情 况 。 当 拟 合 不 
好 时 ,要 添加 其 他 成 分 。 当 所 添加 成 分 不 能 真实 地 被 辨别 时 ,这 样 做 就 产生 了 问 
题 。 当 类 别 间 差异 小 时 ,就 不 必 使 用 有 限 混 合 表示 。 最 令 人 满意 的 情况 是 ,对 成 分 
部 具有 解释 。 对 于 不 同 维 数 的 模型 之 间 进 行 选 择 时 ,要 使 用 惩 避 似 然 准则 (AIC 或 
BIC) ,参见 8. 5. 1 节 。 由 于 存在 参数 边界 假设 问题 ,所 以 似 然 比 检验 并 不 合适 。 贝 
区 和 梅 琳 诺 (Balcer and Melino，2000) 闹 述 了 ,蒙特 卡 罗 戏 剧 性 地 揭示 出 过 度 参数 
化 的 潜在 陷阱 ,此 类 模型 为 了 避免 错误 设 定 ,不论 是 持续 期 限 还 是 异 质 性 都 可 被 灵 
活 设 定 。 
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当 模 型 被 过 度 参数 化 时 ,人 们 就 不 能 识别 参数 。 该 问题 通过 存在 多 个 最 优 解 
或 平坦 似 然 曲 面 而 清楚 地 显示 出 来 。 计 算 算 法 依赖 于 初始 值 而 可 能 收敛 到 不 同 
的 点 。 

利用 惩罚 似 然 准 则 从 竞争 模型 中 挑选 出 的 模型 不 一 定 把 样本 数据 描述 得 很 
好 。 这 只 能 借助 于 合适 的 拟 合 优 度 检验 与 模型 诊断 才 会 查 明 情况 。 从 本 质 上 讲 ， 
人 们 能 将 持续 期 限 的 实际 分 布 与 拟 合 分 布 加 以 比较 ,两 者 之 间 的 显著 差异 揭示 出 ， 
模型 的 系统 成 分 不 足以 解释 观测 样本 变异 。 一 些 可 能 性 将 在 下 一 节 考 虑 。 

计算 上 的 考虑 

第 二 个 问题 是 对 计算 机 算法 的 选择 。 尺 管 EM 算法 在 认识 问题 的 计算 结构 方 
面 非 常 有 益 ,但 在 实际 应 用 中 经 党 显得 很 慢 。 一 些 作 者 发 现 , 基 于 数值 导数 的 牛 
顿 一 拉夫 和 森 算 法 会 产生 许多 令 人 满意 结果 的 例子 。 参 见 霍 顿 (Haughton，1997) 对 
可 供 选 择 方法 给 出 的 一 个 综述 。 不 论 运 用 什么 算法 , 奉 组 间 差 异 很 小 , 则 似 然 曲 面 
将 趋 于 揭示 几 个 局 部 极 大 值 。 无 论 如 何 ,无 法 保证 仅 有 唯一 极 大 值 。 

所 有 有 限 混合 模型 在 以 下 情况 , 即 在 倘若 对 子 总 体 标 号 加 以 排列 , 则 数据 分 布 
没有 变化 时 ,都 是 不 可 识别 的 。 也 就 是 说 ,把 “第 1 个 ”成 分 重新 标号 成 “第 2 个 "成 
分 ,或 者 反 过 来 ,并 不 会 产生 差异 。 这 种 问题 能 值 助 于 对 zw 或 4; 设 定 成 非 递 减 的 
而 得 以 处 理 。 令 人 满意 的 是 ,成 分 标号 具有 某 种 行为 解释 。 

有 限 混 合 模 型 的 一 个 潜在 局 限 性 是 ,额外 成 分 可 以 直接 反映 出 离 群 什 的 存在 。 
虽然 这 不 一 定 是 一 件 坏 事 , 但 有 用 的 是 ,能 识别 出 对 一 个 或 多 个 成 分 负责 的 处 于 外 
面 的 观测 值 。 在 这 一 点 上 , 式 (18. 23) 就 有 有 用。 一旦 实施 估计 后 (postestimation ) ， 
能 计算 后 验 概率 。 对 于 离散 值 来 说 ,这 些 概率 关于 一 个 成 分 将 是 大 的 ,而 关于 其 余 
成 分 则 是 小 的 。 


18.6 存量 抽样 与 流动 抽样 


在 许多 实际 应 用 情况 中 ,会 出 现下 述 问 题 :在 可 利用 的 两 个 或 多 个 不 同 平均 持 
续 期 限 测量 之 间 的 关系 是 什么 ”由 人 口 学 知道 ,平均 年 龄 与 预期 寿命 范围 之 间 有 
众所周知 的 差异 。 在 房地产 业 中 ,提供 销售 的 资产 仍 未 卖 出 的 平均 时 期 与 新 增加 
销售 资产 在 卖 出 之 前 的 预期 时 期 之 间 是 否 存 在 差异 呢 ? 第 一 个 概念 经 常用 于 普遍 
讨论 ,而 第 二 个 问题 可 能 更 有 重大 意义 。 在 经 济 学 中 ,在 由 政府 统计 局 发 布 的 失业 
持续 期 限 的 不 同 测 量 之 间 存 在 着 类 似 的 问题 。 不 可 观测 异 质 性 的 问题 因为 它 附 属 
于 失业 者 的 汇合 及 不 断 进 入 那 种 汇合 之 中 ,所 以 与 这 些 讨 论 密切 有 关 。 有 关 这 些 
问题 的 早期 有 影 啊 的 讨论 之 一 ,由 陕 伦 特 (Salant，1977) 给 出 。 

为 了 有 具体 和 起见 ,我 们 关注 于 熟知 的 事业 持续 期 限 的 例子 。 一 种 测量 失业 者 个 
体 的 失业 经 历 的 统计 量 是 ,平均 中 断 持 续 期 限 (average interrupted duration ， 记 为 
AID) ,在 许多 国家 ,由 统计 局 发 布 此 值 , 它 是 那些 当前 失业 者 存量 成 员 仍然 处 于 失 
业 的 一 个 平均 时 期 。 它 是 预期 流逝 持续 期 限 (expected elapsed duration) 的 估计 值 ， 
即 那些 新 失业 个 体 期 望 保持 失业 的 时 期 ,经 常 称 为 完整 失业 时 期 的 平均 持续 期 限 
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(ACD) 。 在 工作 搜寻 文献 中 , 它 起 着 显著 的 作用 ,而 且 是 本 章 及 前 面 几 章 探讨 的 核 
心 内 容 。 这 是 完全 持续 期 限 (completed duration) 的 期 望 长 度 的 估计 值 。 我 们 可 将 
AID 考虑 成 基于 存量 的 测量 ,而 将 ACD 考虑 成 基于 流量 的 测量 ,前 者 类 似 于 总 体 
的 平均 年 龄 ,而 后 者 类 似 于 期 望 寿命 范围 (expected life span) 。 

饶 究 此 类 问题 的 一 个 适宜 的 统计 工具 是 更 新 论 (renewal theory) 。 具 有 常 值 强 
度 参 数 的 平稳 泊 松 过 程 就 是 更 新 过 程 的 一 个 例子 。 在 时 间 区 间 di 之 内 的 更 新 个 
数 意 指 事件 个 数 。 持 续 期 限 是 相 令 事件 发 生 之 间 ( 即 更 新 ) 的 时 间 。 对 于 给 定 状 态 
中 的 个 体 来 说 ,向 后 递归 时 间 (backward recurrence time) 意 指 由 于 更 新 而 流逝 的 持 
续 期 限 ,而 向 前 递归 时 间 (forward recurrence time) 意 指 从 当前 状态 到 过 渡 的 持续 
期 限 。 时 间 区 间 (0,tj] 上 事件 的 期 望 个 数 记 为 ELN (1)], 称 为 更 新 函数 (renewal 
function) , 其 极限 limy .odELN() |/qdi 就 是 更 新 强度 (renewal intensity) , 它 确 定 了 
ACD 与 平均 加 后 递归 时 间 之 间 的 关系 。 在 下 文中 ,我 们 关注 某 些 著名 结果 。 

院 伦 特 (Salant，1977) 已 经 证 明 ,风险 率 的 异 质 性 提供 了 AID 与 ACD 之 间 差 
天 的 一 种 重要 认识 。 他 的 图 式 表示 法 给 出 影响 到 计算 平均 值 的 两 个 关键 因素 的 直 
觉 图 。 在 图 18. 1 里 , 纵 轴 测量 日 期 时 间 , 而 水 平 轴 代表 调查 的 日 期 。 存 量 抽 样 
(stock sampling) 意 指 在 调查 时 期 对 那些 处 于 已 知 状态 的 个 体 存 量 进行 抽样 。 与 之 
相 比 ,流量 抽样 (flow sampling) 意 指 我 们 对 在 特定 区 间 进 入 状态 的 那些 个 体 进行 
抽样 。 实 施 中 的 时 期 长 度 已 由 图 上 的 垂直 轴 所 示 。 就 图 示 而 言 , 标 出 9 个 长 度 的 
实现 值 , 其 中 4 个 (S6.S7.S8 和 S9) 正 处 于 调查 日 期 之 中 ,而 另外 5 个 (S1、S2 .S3、 
S4 以 及 S5) 在 12 个 月 调查 时 期 内 都 已 完成 。 夺 用 u; 表示 第 7 个 因 调 查处 于 实施 
抽样 时 期 的 长 度 , 则 对 我 们 的 例子 来 说 , AID 二 1/4(2uj)。 夺 用 i; 表示 第 i 个 因 
调查 而 完成 抽样 时 期 的 长 度 , 则 ACD 二 1/5(21;) 。 
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18.1 存量 抽样 下 样本 长 度 候 倚 的 例子 
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现在 可 以 发 现 , 与 较 短 时 期 相 比 ,调查 更 可 能 捕获 到 较 长 时 期 ,而 这 会 产生 向 
上 但 倚 , 也 岗 是 样本 长 度 偏 傈 (length-biased sampling) 。 此 类 偏 倚 可 能 导致 AID>> 
ACD。 不 过 ,由 于 调查 仅 测 量 了 未 完整 持续 期 限 ,所 以 这 种 未 完成 持续 期 限 的 平均 
值 可 能 小 于 完成 持续 期 限 的 平均 值 。 这 就 是 中 断 偏 傈 (interruption bias) 的 现象 。 
对 哪 一 种 侦 倚 占 文 配 的 问题 的 回答 要 依赖 于 时 期 长 度 分 布 , 而 且 这 反 过 来 依赖 于 
风险 率 的 分 布 。 异 质 性 风险 率 提供 了 认识 两 者 之 间 差 异 的 重要 内 容 。 

一 个 重要 假设 是 ,平稳 环境 是 指 那 种 流入 此 状态 与 流出 此 状态 均 相 等 的 情况 。 
议 f(w) 表 示 占 用 时 期 的 密度 ,而 g(t) 表 示 完 成 时 期 的 密度 。 从 而 ,w 的 分 布 由 : 

CCU) G(u) 


f00) = (18. 27) 
[Ga Elz 





给 出 ,其 中 : 
Go) 一 | g(x) dr 


表示 对 应 于 密度 g(xu) 的 生存 函数 ,而 ELij 表 示 完 成 持续 期 限 的 分 布 均值 。 对 于 
这 个 结 采 有 的 全 部 推 寻 与 基本 假设 ,参见 陀 伦 特 ( Salant, 1977) 或 兰 开 斯 特 (Lancaster， 
05 5.3 节 )。 
结果 的 意义 在 于 , 若 g(1) 为 指数 的 ， 事件 的 随机 过 程 是 泊 松 过 程 , 则 f(x) 
记 是 指数 的 并 且 g(1) 与 fl(w) 的 持续 期 限 均 值 相 等 。 
已 知 式 (18. 27) ,可 以 推导 w 分布 与 1 分 布 之 间 的 一 般 关 系 。 一 个 有 用 结果 
是 ,将 & 的 均值 与 1 的 均值 及 方差 联系 起 来 : 
F[u]= (ELJ+ES) (18. 28) 
男 一 个 有 意思 的 结果 涉及 E[ tj 与 常 值 总 体 完整 持续 期 限 均值 之 间 的 关系 ,这 
里 , 常 值 总 体 具有 正在 实施 的 时 期 (也 就 是 说 ,对 不 同 的 正在 实施 时 期 的 存量 加 以 
平均 )。 按 照 基 于 样本 长 度 偏 倚 抽 样 , 此 关系 为 : 


Ef4‘S 1]— EL]+ >EL] (18. 29) 


这 表明 , 常 值 存量 的 平均 持续 期 限 记 为 ELiS ] ,ELxS ] 大 于 新 时 期 的 平均 期 望 持 续 
期 限 。 硅 f() 是 指数 的 , 则 EL 二 2ELtj, 并 且 ELwj==1/2ELt Yj ,一般 来 说 , 样 
本 中 断 时 期 会 部 分 完成 。 

倘若 风险 率 不 为 常 值 , 则 会 怎样 呢 ? 如 果 当 风险 率 关 于 时 期 长 度 是 递增 的 5 即 
正 状态 相依 性 ) ,那么 ELuj 二 ELij, 而 当 风 险 率 关于 时 期 长 度 是 递减 的 ( 即 负 状态 
相依 性 ) ,那么 ELuj] 计 ELtj。 

虽然 这 些 结 果 是 在 常 值 总 体 假 设 下 获得 的 ,但 它们 在 对 各 种 通常 所 用 的 平均 
持续 期 限 测量 之 间 的 联系 加 以 解释 与 分 类 方面 被 证 明 非 常 有 用 。 不 论 时 期 发 生 的 
原因 如 何 , 此 处 的 结果 都 有 效 。 这 些 结果 还 引发 了 对 风险 也 数 形 状 的 更 仔细 严 庶 
的 探讨 。 
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18. 7 设 定 检验 


在 持续 期 限 模 型 中 , 设 定 检验 要 用 到 几 种 不 同形 式 , 包 括 : 

@ 包含 某 些 协 变 量 与 排除 某 些 协 变量 ，; 

@ 对 生存 国 数 的 函数 形式 检验 ; 

@ 不 可 观测 异 质 性 的 检验 ; 

@ 状态 相依 性 与 不 可 观测 异 质 性 的 联合 检验 。 

第 一 种 设 定 检验 形式 不 会 产生 新 的 问题 ,并 且 借 助 于 沃 尔 德 形式 检 验 加 以 
解决 。 

倘若 对 不 可 观测 异 质 性 没有 约束 , 则 函数 形式 的 约束 检验 与 不 可 观测 异 质 性 
的 检验 是 相同 的 。 因 为 后 者 使 风险 率 的 估计 产生 偏 傈 ,如同 18. 25 市 所 证 明 的 ,对 
不 可 观测 异 质 性 进行 诊断 检验 是 可 取 的 。 

对 此 而 言 , 标 准 公式 是 检验 异 质 性 (方差 ) 参 数 是 否 为 0。 如 采 这 个 假 这 是 利 
用 假定 零 异 质 性 的 约束 模型 来 加 以 检验 ,那么 得 分 检验 是 合适 的 。 奢 假设 是 一 个 
边界 假设 , 则 使 用 基于 无 约束 模型 的 似 然 比 或 沃 尔 德 检验 将 会 产生 问题 。 例 如 ,在 
威 布尔 一 伽 玛 模型 (18. 9) 中 ,约束 1/6 二 0 将 使 模型 特殊 化 成 威 布尔 模型 ,但 这 是 
一 个 边界 假设 。 在 零 假设 下 ,一 个 标准 自由 度 卡 方 检验 服从 加 权 的 卡 方 分 布 。 


18.7.1 假设 检验 

一 种 设 定 检 验 的 形式 是 ,建立 在 零 假设 下 模型 指数 基础 上 的 不 可 观测 异 质 性 
的 得 分 检验 。 由 于 异 质 性 与 持续 期 限 相 依 性 之 间 可 能 出 现 混 消 ,所 以 实行 联合 检 
验 而 非 单独 检验 是 令 人 满意 的 。 这 可 利用 局 部 异 质 性 威 布尔 模型 的 框架 来 完成 
[ 兰 开 斯 特 (Lancaster,1985) |。 

局 部 异 质 性 密度 (locally heterogenous density) 通 过 考察 任意 密度 在 具有 乘法 
蜡 质 性 wv 的 威 布 尔 密 度 的 vy 二 1 处 附近 进行 泰勒 展开 而 产生 , 即 . 

S(t1|y)=e "一 ee 
一 e [1 十 (一 e) Gy 一 1) 十 (e2/2)Gy 一 1)? 十 OCe’)| 
其 中 < 一 At 。 由 第 二 行 : 
FEle |=e [1+(e’o /2) |=S5, (1) 

其 中 ,a 项 表示 异 质 性 分 布 的 方差 。 

于 是 ,有 : 

__ 9S (t) 


万 (一 Di 


—agut” e [1l+(eo/2) |—e [2e(ayt" )o /2 | 
—aut" le [1 十 o2(e —2e)/2)| 
若 利用 上 面 结果 ,并 考虑 删 失 观测 值 , 则 对 数 似 然 是 : 
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DM 
In La,B,o) = ,ln{[fs C0) BLS, (C2) 1 ) 
i 二 ] 


N 

= > ,6[lnatt (a— ln 二 lny 二 ln(l+o (ei; — 2e)/2)—&, 
一 1 
二 (1 一 6;)ln(l 二 oe? /2)| 


其 中 ,6; 表示 删 失 指示 变量 ,对 于 未 删 失 持续 期 限 , 它 取 值 为 1, 否 则 取 值 为 0， 
In ji 一 访 十 XB;, 而 ;一 jut? 表示 广义 误差 (generalized error) (参见 18. 7. 2 节 )。 
关注 的 零 假 设 是 于 ,: FF 二 0 与 a 二 1。 这 是 一 个 零 不 可 观测 蜡 质 性 与 指数 分 布设 
定 的 联合 检验 。 设 gb 一 (b ,8 )， 0 一 (Fa ) 而 人 一 (8 9 ,并 设 愉 一 (0,1,8，G)) 
表示 约束 向 量 。 
为 了 简便 起 见 , 只 考察 未 删 失 数据 情况 。 于 是 ,联合 得 分 检验 统计 量 是 : 
1 人 | 


LIM 一 一 $ 
Hl1} ] ] 


了 (18. 30) 


其 中 ,S 一 De 2e), D+ en 5 | ,而 Y' (r) 表示 双 伽 玛 图 数 的 一 


阶 导数 dlnF (xr)/dr, 并 且 d 二 1/(N(Y' (1) 一 1))。 为 了 进行 检验 ,LMno 要 在 零 假 
设 下 计算 (也 就 是 说 ,在 指数 分 布 零 假设 下 用 它们 的 估计 值 代替 所 有 相应 量 )。 此 
检验 统计 量 服从 渐 近 XX (2) 分 布 [页 吉 娅 和 特 里 维 迪 (Jaggia and Trivedi, 1994)]。 

注意 到 ,LMpw 统 计量 的 二 次 型 矩阵 不 是 对 角 的 。 也 就 是 说 ,联合 检验 的 两 个 
成 分 是 相关 的 。 异 质 性 (持续 期 限 相 依 性 ) 的 单独 检验 针对 持续 期 限 相 依 性 ( 蜡 质 
性 ) 来 说 是 有 效力 的 。 更 明确 地 讲 , 假 设 我 们 考虑 异 质 性 与 持续 期 限 的 两 个 单独 得 
分 检验 。 它 们 分 别 是 : 


LMu—7( DCe? —2e))’ (18. 31) 
LMb 一 三 (也 ;(I 十 (1 一 e)tn 7 (18. 32) 


其 中 每 一 个 在 零 假 设 下 ,都 服从 X (1) 分 布 。 零 不 可 观测 异 质 性 的 单独 检验 针对 其 
他 零 假 设 来 说 是 有 效力 的 ,这 是 因为 检验 是 相关 的 ,参见 式 (18. 30)。 因 此 ,在 单独 
检验 基础 上 对 错误 设 定 方向 进行 推断 可 导致 错误 结论 。 

由 于 对 不 可 观测 蜡 质 性 的 设 定 与 状态 相依 性 是 紧密 联系 的 ,所 以 对 它们 单独 
进行 假设 检验 能 人 够 产生 错误 的 结果 | 贾 吉 娅 和 特 里 维 迪 (Jaggia and Trivedi， 
1994) ]。 更 正式 地 讲 , 存 在 不 正确 忽略 异 质 性 条 件 下 ,对 状态 相依 性 的 检验 是 有 偶 
的 ,而 且 反 之 也 是 对 的 。 贾 吉 娅 (Jaggia，1991c) 重 新 分 析 了 在 经 济 计 量 学 文献 中 
以 导致 错误 的 方式 被 人 们 分 析 的 轩 工 持续 期 限 数 据 。 园 训 娅 和 特 里 维 迪 (Jaggia 
and Trivedi，1994) 发 展 了 参数 模型 中 的 某 些 联合 检验 。 也 可 参见 贝 拉 和 龙 恩 
(Bera and Yoon,1993) 对 当 模 型 被 错误 设 定时 假设 检验 的 更 一 般 问题 所 进行 的 研究 。 

由 于 这 些 检 验 在 简单 参数 模型 中 是 有 用 的 ,所 以 研究 的 起 点 可 以 是 威 布尔 模 
型 . 威 布 尔 一 伽 玛 模型 或 者 比例 风险 模型 。 在 此 情况 下 ,对 不 可 观测 异 质 性 的 检验 
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或 任何 其 他 设 定 误差 ,都 能 够 利用 综合 风险 函数 来 完成 ,这 是 因为 在 没有 异 质 性 条 
件 下 ,综合 风险 是 单位 指数 随机 变量 。 现 在 ,我 们 讨论 评估 基于 综合 风险 的 模型 拟 
合 的 一 些 图 形 方法 。 


18. 7. 2 检测 和 销 误 设 定 的 图 形 工具 


在 8.7. 2 节 , 我 们 研究 了 广 闵 残 差 的 概念 。 在 非 线 性 模型 中 ,要 明确 选择 这 类 
测量 很 困难 。 在 当前 背景 下 ,存在 一 种 好 的 选择 。 

广义 残 差 

一 种 有 用 的 检验 形式 是 ,对 持续 期 限 模 型 拟 合 进行 非 参 数 图 形 检 验 。 该 检验 
使 用 了 广义 残 差 ,广义 残 差 被 定义 成 数据 与 待 估计 参数 的 某 种 函数 。 对 于 正确 设 
定 模 型 来 说 , 残 差 应 表现 出 大 致 像 源 自己 知 分 布 的 iid 样本 一 样 。 可 以 证 明 , 综 合 
风险 具有 这 种 性 质 ,从 而 函数 作为 基于 残 差 设 定 检验 的 成 分 。 在 17. 3. 1 节 的 持续 
期 限 模型 背景 下 ,有 : 


SG 一 expL 一 AGCtA) 
大 tp) 一 XGAD)expl 一 AGO) 


考虑 广义 残 差 的 分 布 : 
€ =—A(lt|y) (18. 33) 
=—ln(S(t|p)) 
这 个 变换 的 雅 可 比 行列 式 是 : 
7 |=di/de 

] 

dA(l|p) /dt 

=]/A(t|y) 


已 知 f(zt|p) ,变换 式 (18. 33) 以 及 变换 的 雅 可 比 行列 式 时 ,e 的 密度 由 
ACt | 1) exp(—o ei exp(—O (18. 34) 


给 出 , 它 不 依赖 于 ws 此 密度 服从 单位 指数 分 布 。 这 个 结果 可 参考 17. 3. 1 节 与 
17. 6.7 3 。 

基于 综合 风险 的 诊断 检验 

在 正确 设 定 零 假 设 下 ,利用 广义 残 差 的 单位 指数 性 质 可 建立 诊断 检验 。 广 
义 残 差 的 生存 图 数 是 S(oO 一 exp( 一 0 。 因 此 ,一 In S(O) 一 A(oO 一 c。 对 于 正确 设 定 
模型 来 说 ,将 估计 综合 风险 与 ¢ 进行 图 形 比 较 , 应 该 得 到 大 致 具有 45 斜率 的 正 线 
性 相关 关系 ,如 果 点 显著 偏离 45 直线 , 则 可 能 显示 错误 设 定 。 

例如 , 威 布尔 模型 的 估计 综合 风险 (estimated integrated hazard) 是 6 一 儿 1。 
它 的 生存 函数 是 S(0) 一 N -1( 样 本 观测 值 个 数 宇 站 ， 

一 种 简单 形式 是 ,将 一 ln S(O) 对 ¢ 及 截 中 进行 回归 ,并 检验 截 距 是 否 为 0 且 斜 
率 是 否 为 1。 
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这 种 方法 可 应 用 于 那 种 有 可 利用 的 综合 风险 表达 式 的 任何 参数 模型 。 例 如 ， 
威 布尔 一 伽 玛 混 合 形式 (通过 令 a 一 1, 很 容易 专门 化 成 指数 一 伽 玛 混合 形式 ) 的 广 
义 误差 是 .= 二 kln[ (十 ptr)/k]。 为 了 应 用 此 检验 ， 已 知 (,a:) 的 估计 值 ,计算 
然后 画 出 《对 一 ln S(O) 的 图 形 ， 

删 失 数 据 

在 删 失 观测 值 的 情况 下 ,观测 持续 期 限 :一 min[T,L], 其 中 ,L 表示 右 删 失 限 。 
当 观 测 值 大 于 工时 , 它 就 在 工 处 进行 删 失 。 于 是 ,广义 误差 (7) 不 服从 单位 指数 分 
布 。 通 过 下 述 推导 ,得 出 一 种 对 删 失 进行 调整 的 建议 关系 . 


EL T) | 1 之 Lj = 本 | Si 


-二 由 
EM | 0 人 
-一 ty 1 | 1 ALe 十 er 一 1 ] 


一 | 十 AL) (18. 35 ) 


其 中 ,用 到 了 分 部 积分 并 且 进 行 了 简化 。 

这 个 关系 建议 , 当 数 据 未 删 失 时 ,人 们 将 广义 误差 估计 成 2) 二 (7) ;而 当 数 据 
删 失 时 , 则 将 广义 误差 估计 成 2) 二 1 十 愉 L)。 一 些 可 以 利用 的 结果 表明 , 当 贡 失 
比例 不 太 大 时 ,该 方法 在 删 失 指数 模型 中 发 挥 得 非常 好 {[ 贾 吉 娅 和 特 里 维 迪 (Jaggia 
and Trivedi) ,1994 ;要 吉 好 (Jaggia,1997) |。 


18.7.3 条 他 入 检验 


应 用 于 广义 残 差 的 条 件 矩 (conditional moment) 框架 (参见 8, 2 节 ), 为 设 定 检 

验 查 供 了 丰富 方 法 。 其 思想 可 在 对 不 可 观测 异 质 性 进行 检验 的 背景 下 得 到 阐明 。 
前 面 已 经 证 明 , 绽 合 风险 图 数 是 服从 单位 指数 的 随机 变量 ,其 均值 为 1 且 方 差 

为 2。 在 此 情况 下 ,关注 的 条 件 二 阶 距 约束 是 EL (一 1) 上 二 VL 二 1, 或 者 等 价 地 . 


Ele—2|==0 


而 且 , 也 可 以 产生 较 高 矩 约 束 , 并 且 进 行 联合 检验 或 单独 检验 。 详 细 内 容 参 见 贾 吉 
好 (Jaggia，1991a)，。 


18.8 不 可 观测 异 质 性 例子 :失业 持续 期 限 


在 本 节 ,我 们 在 存在 不 可 观测 异 质 性 并 用 解析 形式 上 易于 处 理 的 一 种 参数 模 
型 加 以 参数 化 的 假设 下 ,重新 探讨 17. 11 节 的 实证 例子 。 

正如 18.7. 2 市 所 讨论 的 ,我 们 通过 考察 模型 的 估计 拟 合 ,使 用 图 形 工 具 来 检 
查 不 可 观测 异 质 性 存在 的 可 能 性 。 对 于 正确 设 定 模 型 ,其 残 差 应 该 服从 单位 指数 
分 布 。 人 们 通过 计算 与 画 出 证 实 累积 风险 函数 针对 广 闵 残 差 , 非 正 式 地 评估 模型 
拟 合 。 对 于 正确 设 定 模型 ,图 形 应 该 显示 出 斜率 为 1 的 近似 直线 。 

图 18. 2 与 图 18. 3 分 别 标明 ,没有 异 质 性 与 有 ( 伽 玛 ) 异 质 性 的 指数 模型 的 广 
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义 残 差 图 形 。 正 如 我 们 从 两 个 图 形 中 看 到 的 ,模型 的 拟 合 在 我 们 引入 了 不 可 观测 
措 质 性 之 后 ,仅仅 进行 了 边缘 改进 。 


指数 模型 残 差 





三 义 〈 考 死期 一 斯 内 尔 ) 残 差 


图 18. 2 ”失业 持续 期 限 ,来 自 指数 模型 的 广义 残 差 。 美 国 数据 为 1986 一 1992 年 共 3 343 个 
时 期 ,有 些 是 完整 时 期 。 


4 指数 一 伽 玛 模型 残 差 -- 





广 闷 ( 考 克 斯 一 斯 内 尔 ) 残 差 
18. 3 失业 持续 期 限 ,来 是 指数 伽 玛 模型 的 广义 残 差 。 数据 与 图 18. 2 中 的 一 样 。 


这 个 结果 通过 表 18. 1 所 列 出 的 实际 估计 值得 到 证 实 ,该 表 还 展示 『 了 币 有 逆 高 
斯 异 质 性 的 指数 模型 的 估计 。 尽 管 不 可 观测 异 质 性 存在 显著 证 据 , 但 在 这 两 种 背 
景 下 的 系数 估计 值 与 我 们 先前 在 没有 不 可 观测 异 质 性 条 件 下 所 获得 的 估计 值 并 没 
有 太 大 的 差异 。 人 们 期 望 , 不 可 观测 异 质 性 的 存在 将 会 对 持续 相依 性 参数 有 很 大 
的 影响 ,因为 指数 模型 缺乏 这 个 因素 。 

不 过 , 当 我们 考察 具有 持续 相依 性 与 不 可 观测 异 质 性 时 ,会 产生 更 有 意思 的 情 
况 。 在 没有 假定 它 是 “正确 ”模型 的 条 件 下 ,我 们 考虑 威 布 尔 分 布 逆 高 斯 混合 模型 。 
为 了 方便 比较 ,我 们 阐述 表 18. 2 中 的 这 些 估计 ,以 及 忽略 不 可 观测 寞 质 性 时 的 那 
些 估计 。 

不 可 观测 异 质 性 的 引入 对 持续 期 限 参 数 有 相当 大 的 影响 , 它 表 现在 从 表 17. 8 
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中 的 1. 128 到 表 18. 2 中 的 1.753。 后 者 缠 含 着 与 忽略 不 可 观测 异 质 性 的 情况 相 
比 ,离开 失业 的 风险 率 会 激增 。 回 顾 18. 2. 4 节 , 在 比例 风险 模型 中 ,忽略 异 质 性 的 
结果 之 一 是 低估 了 风险 率 , 因 此 ,上 述 的 发 现 证 实 与 理论 相符 合 。 其 次 ,注意 到 ,不 
可 观测 异 质 性 的 证 据 极 其 强烈 ;估计 方差 参数 of 具有 大 于 11 的 1 比率。 再 次 , 模 
型 的 拟 合 情况 正如 对 数 似 然 中 所 发 现 的 , 它 也 从 一 2 687. 6 变 为 一 2 616. 6。 很 显 
然 , 系 数 估计 值 在 性 质 上 并 没有 太 大 的 变化 ,可 是 当 引 入 不 可 观测 异 质 性 时 , 人们 
能 更 正式 地 表明 ,显著 系数 (UI，LNWANG，, CONS) 的 影响 。 


表 18.1 失业 持续 期 限 : 带 有 何 玛 与 IG 异 质 性 的 指数 模型 


指数 - 伽 玛 指数 - IG 
变量 系数 系数 

RR 0. 501 0. 817 0. 504 0. 821 
DR 一 0. 882 一 1. 118 一 0. 807 1. 032 
U] 一 1.585 -一 6. 043 一 1.545 一 5. 994 
RRUI] 1. 091 1. 725 1. 057 1. 686 
DRUI 0. 057 0. 055 —0. 013 一 0. 012 
LNWANG 0. 379 3. 184 0. 373 3. 156 
CONS 一 4. 095 一 4. 507 一 4. 097 一 和. 545 
o 0. 232 3. 178 0. 207 2. 925 
—lnL 2 695. 35 2 696. 48 


表 18.2 失业 持续 期 限 : 带 有 jc 异 质 性 与 没有 IG 异 质 性 的 威 布尔 模型 





威 布尔 - IG 威 布尔 
变量 系数 t 系数 t - 

RR 0. 736 0. 812 0. 448 0. 70 
DR 一 1. 073 一 0. 933 一 0. 427 一 0. 53 
UI 一 2. 575 一 6. 698 一 1. 496 一 5. 67 
RRUj 1.734 1. 857 1. 105 1. 57 
DRUI 一 0.061 一 0. 039 一 0. 299 —0. 28 
LNWANG 0. 576 3. 259 0. 37 2. 99 
CONS 一 5. 303 一 3. 953 一 4. 358 一 4 74 
a 1. 753 44. 19 1. 129 51. 44 
0 6. 377 11. 149 一 一 
一 In 于 2 616. 6 2 687. 6 


尽管 模型 拟 合 得 到 了 改进 ,但 新 混合 模型 还 是 能 被 错误 设 定 。 我 们 再 次 使 用 
图 形 方法 作为 一 种 非 正式 的 设 定 检 验 。 图 18. 4 与 图 18. 5 分 别 画 出 , 威 布尔 模型 
具有 不 可 观测 异 质 性 与 没有 不 可 观测 异 质 性 的 广义 残 差 。 图 形 显示 ,混合 模型 尽 
管 比 指数 - IG 模型 更 为 一 般 , 却 看 起 来 像 是 被 错误 设 定 。 为 了 重申 观点 ,虽然 比较 
简单 的 模型 既 没有 考虑 到 持续 相依 性 ,也 没有 顾及 不 可 观测 异 质 性 ,表明 了 很 小 的 
错误 设 定 图 形 证 据 , 可 是 “改进 ”的 设 定 在 前 两 个 方面 都 推广 了 模型 ,但 看 起 来 却 仍 
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像 是 错误 设 定 ,这 种 结果 类 似 于 贾 吉 娅 (Jaggia，1991c)。 这 种 明显 令 人 困惑 的 难 
题 , 可 通过 如 下 推理 加 以 解决 。 用 异 质 性 与 持续 期 限 相依 性 的 交互 作用 解释 结果 。 
威 布尔 模型 假定 单调 风险 。 不 过 , 麦 考 尔 (McCall，1996) 利 用 同样 数据 提供 了 浴 
晤 形状 的 风险 函数 更 为 合适 的 证 据 。 他 设 定 了 一 种 多 项 式 基 准 风 险 函 数 , 比 这 里 
所 用 的 单调 函数 更 缺少 约 东 性 。 因 此 ,对 我 们 的 结果 给 出 一 种 合理 解释 是 ,同时 考 
由 不 可 观测 异 质 性 与 持续 相依 性 的 模型 ,该 方法 与 对 这 两 种 因素 都 忽略 的 模型 相 
比 ,更 加 容易 检查 出 错误 设 定 。 


6 威 布尔 模型 残 差 一 一 


款 积 风险 





厂 义 〈 考 殉 斯 一 斯 内 尔 ) 残 差 
18.4 失业 持续 期 限 ,来 自 威 布尔 模型 广义 残 差 。 数 据 与 图 18. 2 的 一 样 。 


威 布尔 -IG 模型 残 差 


累积 风险 





广义 《 考 克 斯 一 斯 内 尔 ) 残 差 
18.5 失业 持续 期 限 ,来 自 威 布 尔 一 逆 高 斯 模型 的 广义 残 差 。 数 据 与 图 18. 2 的 一 样 。 


最 后 ,我 们 对 不 可 观测 异 质 性 的 存在 与 否 进行 参数 检验 。 其 目的 在 于 曾 明 
18.7 节 所 讨论 的 理论 。18. 7 节 发 展 起 来 的 对 忽略 异 质 性 的 得 分 检验 假定 了 未 删 
失 数 据 。 由 于 这 里 所 用 的 数据 包括 右 删 失 观 测 值 , 故 我 们 要 实施 由 贾 吉 娅 (Jaggia， 
1997) 发 展 起 来 的 对 删 失 样本 的 得 分 检验 。 

我 们 想 要 对 指数 持续 期 限 模型 中 的 零 不 可 观测 异 质 性 日 ,: 到 天 0 进行 检验 。 
设 9==(o? ,9) 表 示人 参数 集合 ,并 设 s(0,) 与 (0) 分 别 表示 在 零 假设 下 计算 的 得 分 


微观 经 济 计量 学 


I 


与 信息 和 矩阵。 利用 18. 7. 1 节 推 导 的 对 数 似 然 ,可 以 本 成 s(0o) 王 (si1 (0o),s; (0o))， 
_9L| 一 上 2 9°L 
其 中 ,si (0,) 一 3 > (C2Cx) ,并 且 工 (bo) E[ 站 休 ]|，. 于 是 ,不 
可 观测 蜡 质 性 的 得 分 检验 是 ， 
LM 一 s (6,)7 1 (06,)s0) ~X (1) (18. 36) 


其 中 , 一 | 万， 一 212 (Fz2) Tol | 表示 要 吉 娅 (Jaggia， 1997) 给 出 的 7 (6) 分 块 
逆 对 角 成 分 ,上 标 “~” 用 于 表示 约束 极 大 似 然 信 计 值 。 

对 于 我 们 的 样本 来 说 ,可 以 发 现 ,LM 二 44. 25, 远 远大 于 X (1) 的 临界 值 , 从 而 
拒绝 到 一 0 零 假 设 。 该 结果 与 来 自 威 布尔 一 伽 玛 以 及 威 布尔 - IG 模型 的 结果 相 一 
致 ,而 后 者 因 引 入 不 可 观测 异 质 性 ,其 模型 拟 合 的 显著 性 得 到 了 改进 。 正 如 前 面 所 
关注 的 ,这 种 检验 针对 错误 设 定 持续 期 限 相依 性 的 检验 有 效力 。 


18.9 应 用 研究 


风险 函数 与 不 可 观测 异 质 性 之 间 交 互 作用 的 问题 ,已 有 大 量 文 献 进行 妍 究 。 
文献 普遍 认可 的 一 种 观点 认为 , 若 很 好 设 定 了 风险 函数 , 则 蜡 质 性 分 布 的 精确 参数 
设 定 相 对 而 言 并 没有 什么 不 有 要 [ 曼 顿 等 人 (Manton et al. ，1986) j]。 该 观 点 意味 
着 ,倘若 风险 函数 被 很 好 设 定 , 而 不 是 从 参数 形式 上 对 不 可 观测 异 质 性 加 以 建 模 ， 
我 们 就 能 简单 运用 稳健 方差 估计 。 其 他 一 些 研 究 建议 ,对 异 质 性 分 布 的 参数 设 定 
并 非 无 关 紧 要 [ 赫 克 曼 和 辛 格 (Heckman and Singer，1984a) ], 而 使 用 非 参 数 设 定 
则 是 人 们 所 盼望 的 。 某 种 非常 具有 影响 力 的 研究 支持 ,运用 含有 非常 灵活 的 风险 
困 数 设 定 ,结合 异 质 性 的 参数 假设 [ 迈 耶 (Meyer，1990); 了 哈恩 和 花期 曼 (Han and 
Hausman，1990)]。 最 后 ,作为 所 有 上 述 观点 的 一 种 折 中 情况 ,一些 研 究 者 运用 哈 
恩 - 一 豪 斯 曼 的 离散 时 间 方 法 或 高 阶 多 项 式 风 险 函 数 ,并 将 它 与 非 参 数 异 质 性 的 赤 
克 曼 一 辛 格 方法 相 结 合 。 不 过 , 正如 员 克 和 梅 利 诺 (Baker and Melino，2000) 所 指 
出 的 ,这 可 能 导致 过 度 参 数 化 ,无 疑 将 极为 有 害 。 因 此 ,这 看 起 来 表现 出 对 问题 方 
法 的 敏感 性 ,应 小 心 谨慎 对 待 此 问题 ,宁愿 运用 简单 的 模型 ,而 不 用 含有 异 质 性 参 
数 的 饱和 模型 。 

考 克 斯 PH 模型 ,在 生物 计量 学 文献 中 占据 中 心 位 置 。 当 人 们 对 基准 风险 立 
数 没有 内 和 后 兴趣 时 ,这 看 起 来 就 是 对 函数 形式 的 出 色 选 择 。 建 立 模 型 从 此 处 人 手 ， 
常常 是 最 好 的 。 不 过 ,不 可 观测 异 质 性 在 大 部 分 经 济 计量 设 定 中 极为 重要 ,从 而 不 
应 忽略 它 。 

许多 统计 软件 包 经 常 提 供 能 结合 任何 一 种 标准 ( 伽 玛 . 道 高 斯 或 者 对 数 正 态 ) 
异 质 性 (脆弱 性 ) 设 定 的 标准 参数 持续 期 限 模型 的 选择 。 尽 管 从 使 用 上 看 ,这 和 是 相 
当 方 便 的 ,但 是 离散 风险 模型 越 是 提供 较 大 灵活 性 以 及 与 经 济 数据 的 较 好 匹配 , 则 
越 会 表现 出 更 大 的 吸引 力 。 

对 于 潜在 类 别 模型 ,运用 EM 算法 经 常 遭 遇 到 低 的 计算 速度 。 通 党 ,对 似 然 疼 
数 直 接 求 极 大 值 既 可 行 又 有 效 。 
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18. 10 ”文献 注释 


18.2 确实 有 许多 论文 已 经 讨论 过 异 质 性 分 布 的 设 定 及 错误 设 定 的 后 果 。 沃 
佩 尔 等 人 (Vaupel et al. ，1979) 给 出 了 对 伽 玛 模型 性 质 的 一 个 好 的 讨论 。 霍 高 
(Hougaard,，1995) 给 出 异 质 性 模型 的 一 个 综述 。 赫 克 曼 和 辛 格 (Heckman and 
Singer，1984a) 曾 提出 非 参数 设 定 , 并 强调 对 错误 设 定 的 敏感 性 。 曼 顿 等 人 (Man- 
ton et al. ，1986) 努 力 理 顺 对 风险 与 异 质 性 错误 设 定 的 相对 重要 性 ,建议 前 者 是 一 
个 关键 。 

18. 3 汇 登 保 (Van den Berg，2001) 提 供 了 对 MPH 模型 的 透彻 而 易于 理解 
的 研究 ,以 及 有 关 MPH 模型 的 设 定 方面 的 进一步 参考 文献 。 

18.4 蛤 恩 和 豪 斯 曼 (Han and Hausman，1990) 与 迈 耶 (Meyer，1990) 已 经 
提出 ,灵活 风险 设 定 结 合 关 于 异 质 性 的 参数 设 定 方面 的 一 些 好 的 实证 例子 。 

18.5 赫 克 曼 和 辛 格 (Heckman and Singer，1984a) 的 论文 是 早期 探讨 离散 异 
质 性 模型 的 。 不 可 观测 异 质 性 的 有 限 混合 模型 也 被 人 们 普遍 称 为 “ 非 参 数 异 质 性 ” 
模型 。 见 克 和 梅 利 诺 (Baker and Melino，2000) 闸 述 了 持续 期 限 和 非 参 数 异 质 性 
的 蒙特 卡 罗 研 究 。 他 们 考察 带 有 非 参 数 异 质 性 的 持续 期 限 相依 性 的 非常 灵活 的 设 
定 。 他 们 的 结果 表明 , 当 这 两 者 都 存在 时 ,在 似 然 也 数 中 拥有 许多 有 限 混合 成 分 的 
策略 会 产生 大 的 偶 倚 与 不 可 靠 的 结论 。 利 用 BIC 或 汉 纳 一 硅 因 (Hannan - Quinn) 
准则 513 即 惩罚 过 滤 参 数 化 是 有 益 的 。 

18.6 兰 开 斯 特 (Lancaster，1990) 和 萨 特 伦 (Salant，1977) 的 书 是 关于 样本 
长 度 俩 倚 的 优秀 参考 书目 。 兰 开 斯 特 给 出 更 新 论 的 一 个 基础 内 容 , 几 个 重要 结果 
构成 了 该 理论 基石 。 也 可 参见 泰勒 和 卡 林 (Tayior and Karlin，1994 ) 。 

18.7 存在 许多 论文 讨论 了 持续 期 限 模 型 设 定 检验 ,其 中 的 绝 大 多 数 人 研究 针 
对 比较 易 处 理 的 无 删 失 情况 。 基 弗 (Kiefer，1988) 给 出 一 个 综述 。 贾 吉 娅 (Jaggia， 
1997a) 提 出 一 个 简短 却 清晰 的 关于 设 定 检验 的 条 件 矩 方法 [格林 (Greene，2003) 
也 概括 了 此 方法 ]。 在 持续 期 限 模型 条 件 下 ,目前 尚未 经 检验 的 因 计 算 需 要 而 出 现 
的 设 定 检验 则 归功 于 安德鲁 (Andrews，1997) 。 在 计数 模型 条 件 下 , 卡 梅 伦 和 特 里 
维 迪 (Cameron and Trivedi，1998 ,第 6 章 ) 曾 经 讨论 了 有 限 混 合 模型 的 模型 选择 
问题 。 基 于 持续 期 限 模型 的 各 种 不 同 残 差 形 式 的 模型 诊断 方面 的 -一 个 好 的 介绍 由 


[1] 在 统计 学 里 ,信息 准则 (HQC) 是 除 AIC 与 贝 叶 斯 准则 (BIC) 以 外 的 另 一 种 信息 准则 。HQC 可 
写成 : 


HQC=n ln (> ) + 2kln InCn) 


其 中 ,表示 参数 个 数 ,n 表示 观测 值 个 数 , 而 RSS 表示 来 自 线性 回归 或 者 非 线 性 回归 全 局 最 优化 的 极 小 值 的 
拟 合 残 差 平方 和 。 

信息 准则 经 常用 作 选 择 模型 的 指南 。 信 息 准则 概念 提供 了 在 拟 合 优 度 与 最 少 参 数 个 数 之 间 进 行 权 衡 的 
一 种 度量 。 从 本 质 上 看 ,构造 信息 准则 统计 量 遵 循 的 统计 思想 是 一 致 的 , 即 在 考虑 拟 合 残 差 的 同时 ,依据 旧 
变量 个 数 施加 惩罚”。 不 过 ,由 此 说 它们 是 同一 个 指标 确实 不 慨 , 毕 竟 “惩罚 "力度 还 是 不 尽 相 同 的。 一 一 译 
者 注 


微观 经 济 计量 学 


me 


埠 斯 默 和 乐 梅 肖 (Hosmer and Lemeshow，1999, 第 196 一 200 页 ) 给 出 。 

18.8 兰 开 斯 特 (Lancaster，1979) 的 经 典 实证 论文 分 析 了 , 威 布 尔 一 伽 玛 混 
合 模型 条 件 下 的 失业 持续 期 限 。 贾 吉 娅 (Jaggia，1991c) 利 用 可 以 嵌入 几 种 流行 设 
定 的 广义 伽 玛 模型 ,探讨 了 黑 工 持续 期 限 模型 中 的 错误 设 定 。 他 的 论文 还 罕 出 了 
来 目 过 度 约 束 模型 实施 推断 的 困难 。 第 19 章 涵盖 持续 期 限 的 一 系列 其 他 应 用 。 


习题 


18 -1 改编 目 萨 普兰 (Sapra,2002) j18. 2 节 的 分 析 证 明了 ,不 可 观测 蜡 质 性 
对 无 条 件 风 险 函 数 或 平均 风险 函数 的 影响 。 强 调 忽 略 异 质 性 会 导致 对 平均 风险 函 
数 的 斜率 低估 。 设 条 件 风险 函数 是 ic(i 一 wo 人 ,其 中 ,Xo 表示 基准 风险 函数 或 
无 条 件 风险 洒 数 。 证 明 :(iD 无 条 件 风 险 hu (7) 二 A0(2);(il) 在 下 面 每 一 个 例子 里 ， 
AAu (1) /9t<0。 z 

(a) vy~UL0, 1]), 并 且 h0(2) 二 1,， Yt。 

(b) 服从 单位 指数 分 布 ,满足 pdf g() 一 e 一 ,并 且 ho (4) 二 pexp(71), po 记 0， 
Y=0,。 

18 -2 当 用 异 质 性 服从 对 数 正 态 分 布 且 均 值 为 1 的 假设 ,代替 异 质 性 服从 伽 
玛 分 布 的 假设 时 ,重新 考虑 18. 2. 3 节 的 威 布尔 -一 伽 玛 模型 。 

(a) 证 明 在 此 情况 下 ,不 可 能 获得 无 条 件 风险 函数 的 解析 表达 式 。 

(b) 将 无 条 件 风 险 的 积分 表达 式 代 人 17. 6. 3 节 给 出 的 对 数 似 然 函 数 中 。 利 
用 12. 4 节 的 基于 模拟 极 大 似 然 法 。 说 明 如 下 估计 算法 。 详 述 似 然 极 大 值 化 所 包 
含 的 各 种 步骤 。 

18 -3 考察 指数 一 伽 玛 混合 模型 。 这 种 模型 是 MPH 模型 的 一 种 特殊 情况 。 
就 指数 模型 而 言 ,以 乘法 异 质 性 因子 "为 条 件 的 生存 函数 是 SG) 一 exp( 一 jt v)， 
) 盖 0。 无 条 件 生 存 示 数 是 由 平均 生存 函数 给 出 的 。 利 用 ，* 的 密度 g(v) 作为 权重 


函数 对 异 质 性 总 体 求 平 均 , 所 以 S() 二 | SGzly)g() 畴 。 假定， 服从 (两 参数 ?全 


玛 分 布 ,满足 g(v) 一 Sy* lexp( 一 6v)/T(k)。 

(a) 已 知 伽 玛 异 质 性 ,证 明 SCb 一 (1 十 AS) 天。 

(b) 推导 无 条 件 持 续 期 限 密度 函数 f(2) 与 无 条 件 风险 陶 数 X41) 的 表达 式 。 这 
些 一 般 表 达 式 可 通过 令 v 在 1 处 的 均值 进行 专门 研究 ;也 就 是 说 , 设 上 = 二 6, 则 会 产 
生 指 数 一 伽 玛 混合 模型 。 将 这 个 混合 模型 分 布 的 均值 及 方差 ,与 最 初 的 指数 分 布 
的 那些 均值 及 方差 加 以 比较 。 

(c) 假如 随机 变量 ， 服从 两 点 分 布 , 使 得 以 概率 r 取 值 y; ,而 以 概率 (1 一 x) 取 
值 羔 。 对 无 条 件 生 存 函 数 的 设 定 来 说 ,该 假设 含义 是 什么 呢 ? 请 解释 你 的 答案 。 

18-4 在 不 可 观测 异 质 性 (有 些 计算 机 软件 ,也 称 不 可 观测 异 质 性 为 脆弱 性 ， 
还 可 能 有 子 命令 来 设 定 它 ) 服 从 伽 玛 分 布 的 假设 下 ,利用 来 自前 一 章 实证 问题 的 麦 
考 尔 数据 集合 的 样本 ,重新 估计 那些 过 渡 到 全 日 制 就 业 (CENSOR1= 王 17 的 威 布尔 
模型 。 


/4 混合 模型 与 不 可 观测 异 质 性 
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(a) 运用 18. 7. 2 节 中 的 广义 残 差 ,检验 模型 错误 设 定 的 假设 。 

(b) 新 模型 会 显示 出 持续 期 限 相依 性 的 性 质 吗 ? 该 新 模型 会 对 数据 给 出 更 好 
的 拟 合 吗 ? 请 参考 不 可 观测 异 质 性 与 持续 期 限 相 依 性 之 间 的 交互 作用 ,解释 上 述 
结果 。 

(c) 在 对 数 正 态 异 质 性 假设 下 ,重新 完成 (a) 部 分 问题 。 有关 持 续 期 限 相依 性 
的 结果 ,会 显著 地 不 同 于 伽 玛 异 质 性 的 那些 结果 吗 ? 


1 
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19.1 3 论 


本 章 研 究 几 种 不 同 的 持续 期 限 模型 ,从 广泛 意义 上 讲 , 可 将 它们 解释 成 多 变量 
模型 ,此 类 模型 既 涵 盖 平 行 过 渡 , 叉 涵盖 重复 过 渡 。 任 何 涉及 一 个 以 上 指定 状态 的 
模型 都 可 被 看 成 是 多 变量 模型 ,这 是 因为 分 析 将 包括 两 个 以 上 持续 期 限 的 联合 分 布 。 

我 们 所 考察 的 模型 ,通过 各 种 方式 产生 ,并 应 用 于 形形色色 的 数据 类 型 。 上 尽管 
存在 差异 ,但 为 了 组 织 方便 ,它们 被 归 入 本 草 。 

具体 起 见 , 考 察 几 个 例子 。 源 自 劳 动 经 济 学 的 一 个 熟悉 模型 涉及 从 失业 到 就 
业 的 过 渡 , 或 脱离 劳动 力 。 第 一 种 过 渡 能 进一步 被 分 成 回 到 原来 职业 或 到 一 个 新 
职业 。 这 两 种 指定 状态 是 互 不 相交 的 。 失 业 时 期 可 能 通过 过 渡 回 到 两 个 指定 状态 
的 任何 一 个 而 终止 。 该 例子 的 一 种 变形 是 ,考察 失业 个 体 是 找到 一 份 全 日 制 或 碰 
职工 作 , 还 是 继续 成 为 失业 者 。 因 而 ,存在 三 种 可 能 状态 (指定 状态 )。 第 17 章 与 
第 18 章 的 一 些 模型 已 经 研究 ,在 两 种 状态 之 则 进行 过 渡 。 人 们 仍然 能 运用 两 状态 
方法 处 理 这 类 数据 。 例 如 ,状态 1 代表 全 日 制 就 业 情况 ,而 状态 0 代表 其 他 任何 状 
态 。 如 同 前 面 一 样 ,这 会 涉及 对 风险 率 进行 建 模 。 不 过 ,也 能 利用 具有 三 种 状态 与 
两 种 过 渡 ,因而 用 两 种 风险 函数 刻画 这 种 情况 ,人 们 者 对 每 一 个 指定 状 态 进 行 设 
定 ,更 一 般 地 讲 , 存 在 众多 失败 类 型 ,我 们 希望 对 从 已 知 状态 到 任何 一 种 失败 类 型 
的 过 渡 进 行 建 模 。 在 本 章 , 我 们 要 将 前 面 两 章 所 人 研究 的 概念 工具 推广 到 处 理 多 重 
风险 (失败 ?或 多 变量 持续 期 限 模型 上 。 

将 一 些 重 要 问题 表述 如 下 。 

1. 如 何 对 协 变 量 与 各 种 失效 类 型 之 间 的 关系 建 模 ? 

2， 如 何在 特定 研究 条 件 集合 下 ,对 失效 类 型 之 间 的 交互 作用 建 模 ? 

3. 已 知 某 个 失效 类 型 “移动 ”或 所 有 其 他 失效 类 型 ,对 某 些 失效 类 型 的 失效 率 
应 如 何 合计 ”? 

多 变量 持续 期 限 模型 (multivariate duration model) 涉及 对 所 有 过 渡 进 行 联 立 
建 模 , 即 对 两 个 或 更 多 风险 函数 的 联合 设 定 与 估计 。 分 析 多 变量 持续 期 限 数 据 有 
几 种 可 能 框架 ;竞争 风险 (competing risk) 框 架 就 是 最 流行 的 一 种 框架 。 麦 考 尔 
(McCall,，1996) 提 供 了 用 于 关注 失业 保险 作用 的 失业 数据 的 欧 争 风险 框架 的 实证 
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由 用 。 利 用 类 似 于 麦 考 尔 的 方法 ， 登 格 、 奎 格 利 和 凡 。 奥 德 (Deng，Quigly and 
Van Order，2000) 探 讨 了 抵押 持 有 者 采取 抵押 预先 支付 或 抵押 到 期 的 过 渡 方 式 。 

进行 风险 联合 建 模 的 动机 是 什么 呢 ? 同时 ,这 样 建 模 又 会 得 到 什么 好 处 呢 ? 
知 各 种 不 同 风险 本 质 上 是 独立 的 , 则 各 自分 开 建 模 与 联合 建 模 将 会 得 出 同样 结果 。 
不 过 ,不 同 风险 可 能 是 有 联系 的 ;就 每 一 种 风险 函数 而 言 , 可 能 存在 一 个 共同 的 不 
可 观 调 异 质 性 项 。 否 则 ,每 一 种 风险 可 能 包含 具有 一 个 或 多 个 共同 拥有 成 分 的 不 
可 观测 异 质 性 ,从 而 出 现 相 关 风 险 。 

第 二 类 例子 包括 人 们 分 析 指 定 状 态 持 续 期 限 的 联合 分 布 时 , 遇 到 平行 事件 的 
情况 。 比 如 , 数 对 (Ti ，T; ) 代 表 失 业 持 续 期 限 与 没有 健康 保险 的 持续 期 限 。 这 里 
对 风险 进行 联合 估计 的 动机 类 似 于 前 面 所 概述 的 情形 。 

第 三 个 例子 涉及 在 同一 状态 下 重复 时 期 (repeat spells) 长 度 的 联合 分 布 (比如 
失业 或 没有 健康 保险 ) 。 即 对 给 定 个 体 来 说 ,人 们 想 要 对 终止 时 期 的 风险 进行 联 立 
建 模 。 如 果 所 研究 的 时 期 是 独立 的 ,那么 可 利用 前 面 几 章 的 单 时 期 方法 对 它们 加 
以 分 析 。 夺 研究 者 希望 探索 过 渡 的 相依 性 结构 , 则 对 已 知 状态 的 一 些 时 期 联 立 建 
模 较 为 适宜 。 当 出 现时 期 相关 时 ,需要 新 的 模型 及 方法 。 上 面 的 最 后 一 个 例子 就 
比 前 面 的 例子 更 为 复杂 ,因为 由 时 间 区 间 分 开 的 事件 之 间 可 能 存在 相关 性 。 例 如 ， 
先前 时 期 的 长 度 与 类 型 ,或 更 一 般 地 讲 , 时 期 的 过 去 历史 可 能 会 影响 到 后 续 时 期 的 
概率 与 长 度 ; 或 者 个 体 的 不 可 观测 特征 可 能 在 后 续 时 期 持续 。 这 类 序列 相关 的 不 
可 观测 异 质 性 在 重复 时 期 之 间 产 生 了 联系 。 正 如 一 个 事件 的 出 现 概 率 可 能 依赖 于 
相同 事件 以 前 出 现 的 情况 。 赫 克 曼 和 博 尔 哈 斯 (Heckman and Borjas，1980) 利 用 
诸如 出 现 相 依 性 (occurrence dependence) 与 (马尔 可 夫 ) 滞 后 持续 期 限 相依 性 
(lagged duration dependence) 的 概念 ,刻画 个 体 状 态 相 依 性 的 几 种 结构 类 型 。 

文献 中 有 大 量 模型 对 应 于 这 些 各 种 不 同 数 据 的 情况 。 不 过 ,尽管 看 起 来 模型 
有 截然 不 同 的 选择 ,但 通过 一 些 共同 线索 将 它们 联系 起 来 。 在 19. 2 节 引 入 一 些 基 
本 概念 之 后 ,我们 研究 流行 的 元 争 风险 模型 。 在 19. 3 节 , 我 们 考察 基于 一 组 生存 
时 间 边 缘分 布 的 多 元 变量 模型 ,并 引入 对 生存 时 间 进 行 联 合 建 模 的 联接 方法 
(copula approach) 。 多 重 时 期 建 模 , 则 在 19. 4 节 加 以 研究 。 


19.2 竞争 风险 


首先 ,我 们 引进 经 常用 于 竞争 风险 模型 (competing risks model, 记 为 CRM) 和 
其 他 多 变量 公式 的 一 些 概念 。 这 些 概念 常常 是 第 17 章 曾 引 人 和 人 概念 的 推广 。 当 退 
出 是 一 系列 竞争 状态 时 ,基本 竞争 风险 模型 公式 适用 于 对 一 个 状态 时 间 进 行 建 模 。 
竞争 风险 模型 备 受 人 们 青睐 ,这 是 因为 如 果 模 型 是 PH 模型 ,那么 它 相 对 可 和 直接 


19. 2. 1 基本 概念 


现在 ,我们 考察 竞争 风险 模型 , 它 有 m 个 潜在 持续 期 限 或 失效 时 间 , 其 中 每 一 
种 竞争 都 会 引发 失效 。 


微观 经 济 计 量 学 


潜在 持续 期 限 

对 模型 背景 设置 如 下 。 每 个 实验 者 都 具有 基本 失效 时 间 , 失 效 时 间 受 限于 删 
失 。 失 效 时 间 可 能 是 m 种 不 同类 型 之 一 ,由 集合 本 二 人,…,m} 给 出 。 我 们 将 这 个 
失效 时 间 看 成 是 过 渡 到 已 知 状态 (“ 死 之 ”) 的 m 种 明显 原因 。 不 过 ,一 类 事件 出 现 
失效 就 会 消除 个 体 来 自 其 他 类 事件 的 风险 。 因 此 ,已 知 对 每 个 个 体 的 继续 存在 
(2 一 1) 个 持续 期 间 的 删 失 ,我 们 就 至 多 只 能 观察 到 一 个 完整 持续 期 限 。 

具有 m 种 失效 类 型 的 竞争 风险 模型 ,存在 mx 十 1 个 状态 {0,1,…,m}, 其 中 ， 
0 表示 最 初 状态 ,而 {1,…,m} 是 可 能 的 指定 状态 。 对 于 第 i 个 个 体 ,数据 向 量 是 
(Xi 让 Ci » mi ds; ) 形 式 , 其 中 9 X; 表示 测量 ? 特征 的 弦 外 生 协 变量 的 回 量 , 记 一 
min(ti;s "°° ,tos ta ) , 其 中 » Le 表示 过 渡 到 第 k 个 指定 状态 的 时 间 > ei 表示 删 失 的 时 
由 ,d z=1(t; =t) ,ec 表示 虚拟 变量 , 当 ti ti 时 ,c 取 值 为 1。 由 于 我 们 唯一 地 观 
察 到 一 个 i; ,所 以 将 其 余 的 变量 解释 成 潜在 变量 。 

大 们 可 将 删 失 看 成 是 一 种 竞争 风险 。 根 据 概 率 分 布 , 它 对 个 体 产 生 影 响 。 在 
本 章 , 删 失 变量 被 假定 成 与 (，…… 舌 ) 是 独立 的 。 

i 的 不 可 观测 特性 被 纳入 不 可 观测 异 质 性 中 ,用 v 表示。 当 v 随 退出 原因 而 变 
化 时 ,就 将 它 号 成 vy; ,j 二 1,…,m。 

竞争 原因 

范 争 风险 的 一 个 标准 例子 是 ,由 竞争 原因 而 导致 的 死亡 。 考 虑 一 位 必须 接受 
肾脏 移植 手术 的 个 体 , 他 处 于 过 湾 到 健康 状态 .排斥 状态 或 某 种 其 他 不 健康 状态 的 
“风险 "中 ,比如 肝脏 出 现 问题 。 知 病死 于 任何 一 种 状态 , 则 意味 着 不 可 能 过 渡 到 其 
他 状态 。 因 此 ,在 m 种 事件 设置 下 ,每 一 种 事件 都 提供 一 种 完整 持续 期 限 以 及 
m 一 1] 个 删 失 持续 期 限 。 因 而 ,我 们 拥有 如 下 的 “竞争 风险 ”情况 :确定 该 病人 的 指 
定 状 态 时 存在 况 争 。 

尺 管 经 验 应 用 经 常 需要 离散 时 间 模 型 ,可 是 对 联合 风险 公式 的 解释 却 使 用 连 
续 时 间 框 染 , 而 且 一 般 来 说 ,遵循 米利 和 帕 德 尼 (Mealli and Pudney，1996) 给 出 的 
解释 。 男 外 ,我 们 假定 拥有 单 时 期 数据 。 

模型 提供 时 期 持续 期 限 (spell duration) 的 联合 分 布 , 记 为 r, 而 退出 路 线 (exit 
route) 为 7,r 是 在 集合 (1,2,…,m) 中 取 一 个 值 的 整数 变量 ，。 

为 了 简单 起 见 ,我 们 忽略 删 失 ,并 假定 存在 一 些 潜在 变量 (zt ,…,i) ,每 一 种 指 
定 状 态 都 有 具有 一 个 潜在 变量 , 倘 硅 不 存在 其 他 风险 因素 引起 该 时 期 立刻 结束 的 话 ， 
淤 在 变量 通过 哪 一 个 时 期 可 能 结束 对 应 于 每 个 可 能 退出 路 线 的 时 期 持续 期 限 。 特 
定 指 定 状 态 协 变量 用 x (二 1,…,m) 表 示 。 我 们 在 时 期 终止 时 观测 到 一 个 持续 期 
限 rz, 其 中 : 

rz =—min(tis" ) (19. 1) 
—min(t;), 上 一 0 

也 就 是 说 ,只 有 最 短 持续 期 限 是 被 观测 到 的 ,而 其 他 持续 期 限 都 被 删 失 了。 这 里 ， 
不 考察 归 因 于 除 退 出 以 外 其 他 因素 引起 的 删 失 。 于 是 ,有 : 


Prl ct |=Pr[ i 全 上 过 | (19. 2) 
= S(t) 
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这 和 是 一 个 联合 生存 函数 。 如 果 风 险 是 独立 的 ,那么 : 


Pr| rt |=Pr| it) >t IXPri t,t |X XPr|t, > (19. 3) 
相应 的 退出 路 线 ~ 由 
r 一 arg min(t;) (19. 4) 
jE 


给 出 。 
在 设 gj;(t)dt 表示 殖 于 区 间 (t,t 十 dt) 内 风险 7 的 概率 , 则 适用 于 所 有 原因 的 总 
风险 率 是 ， 


Ai(t) =— d/diln SS.(1) = > g(t) 
j=] 


在 生物 统计 学 中 ,这 被 称 为 总 死亡 力 (total force of mortality)[ 戴 维和 英 什 伯 格 
(David and Moeschberger, 1978) ]。 如 果 风 险 是 独立 的 ,那么 特定 原因 j 的 风险 率 
是 X(t) 三 gj (1)。 这 意味 着 以 一 直 生 存 到 :为 条 件 的 位 于 (i,i 十 dt) 内 的 原因 j 引 
起 的 失效 概率 ,关于 7 是 众多 风险 之 一 还 是 唯一 风险 是 相同 的 。 

以 一 了 再 生存 到 五 为 条 件 的 位 于 区 间 (C ,IT ) 内 的 风险 7 的 生存 概率 是 : 


1 Ts i 
| Aj; (i)dt = | A; (Lt) dt -| Aj; (ft) dt (19. 5) 
一 一 in SCT,) —]n SCT) 


—_—] Pr| z; > T, | 





Pr[ i, > 了 
或 者 等 价 地 : 
| T, . 
exp(—| Nd)= pe 二 可 (19. 6) 


] 减 去 左边 表达 式 称 为 位 于 区 间 (T,T) 的 原因 7 致死 的 净 概 率 。 表 达 式 (19. 6) 
有 助 于 建立 用 于 估计 的 似 然 晃 数 。 

独立 风险 

现在 ,我 们 明确 地 勾画 出 协 变 量 影响 风险 率 的 图 。 假 定 独 立 风险 (对 应 于 相关 
风险 ) ,并 考察 tj; 的 分 布 。 第 ; 种 类 型 失效 的 风险 率 定义 为 : 


Pr| 上 < 委 T< 上 十 At， Tt; 0 
At; 





A; (£; [Xx; ) = him 
一 
而 第 7 种 类 型 风险 的 综合 风险 率 定义 为 ， 
Aj(t, |x,) = | WCslx) ds 
0 


于 是 , 硅 利 用 生存 哨 数 与 综合 风险 消 数 之 间 的 关系 , 则 持续 期 限 密度 为 : 


方志 |x; ,BO;)—A;(t; x; ， BO;) 5S; (Lt; x; ,BG;) 
一 和 (二 | ,8;)expL— A;(t;|x;,B;) | 


一 日 定义 X 一 | Xi 9 ,Xm |] ,并且 B= 9"™”" , BG]」 ,得 出 T 与 rr 的 联合 密度 ， 
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f(t r|x, 3) = fr(rly,B) [| exp[— A; tx;, 8B,)] (19.7) 
= A,(r|x,,0, )exp[ A (t|x,, 8,)|X [| exp[l— A (tT|x; ,OG;)] 
=~ A,(t|x,, 8, 1[ expC— A Cel x,8,)] 


第 一 行 由 条 件 概 率 与 边缘 概率 的 乘积 得 到 。 右 边 第 二 项 则 是 除 > 之 外 所 有 退出 路 
线 生 存 概率 的 乘积 ,并 用 到 了 风险 独立 性 假设 。 
式 (19. 7) 蕴 含 . 


Aj; tT|x,; ,B exp[ > — Aj(r|x;,B;) |= A; (tT| x; ,3;)expl— Aa(r| xy 0B) | 
(19. 8 ) 
其 中 , A(tlx,9) 二 Aj(r|%i ,Bj) 表 示 总 风险 或 整个 综合 风险 。 最 后 这 个 式 子 
表明 ,脱离 最 初 状态 的 总 风险 是 所 有 指定 状态 的 风险 之 和 。 整 个 生存 函数 是 : 
S(t1)—=exp(— A’(t)) (19. 9) 
已 知 独立 风险 , 似 然 函 数 是 如 同 式 (19. 7) 的 所 有 观测 值 项 的 乘积 。 若 所 有 函 
数 形式 虱 已 设 定 , 则 这 种 似 然 晴 数 就 可 以 用 显 式 形式 写 出 。 前 面 曾 阐 述 的 许多 有 
意义 的 问题 ,比如 函数 形式 的 灵活 性 .不 可 观测 异 质 性 等 ,在 CRM 背景 下 仍 是 有 


意义 的 。 与 一 般 水 平 上 的 讨论 相反 ,现在 我 们 考察 特定 的 函数 形式 。 文 献 中 的 比 
例 风 险 设 定 十 分 流行 ,这 里 将 采用 这 样 的 设 定 。 


19. 2. 2 具有 比例 风 葵 的 CRM 


这 里 的 目标 是 推导 时 期 长 度 的 联合 密度 与 退出 理由 ,人 它 通 过 对 各 种 退出 理由 
的 综合 风险 进行 加 总 而 得 到 。 

考察 形式 为 : 

A; (tL;X) —Ao; (t)expLx (1) 6B; |]， 7 二 1] ,mm 

的 PH 模型 ,其 中 ,基准 风险 Ao; SB; 都 具有 类 型 ; 风险， 总 二 表示 类 型 i 
的 &; 个 有 序 失 效 。 例 如 , 当 m= 二 2 时 , 则 | 意 指 注册 类 型 1 失效 的 个 体 数 目 ,而 &， 
意 指 注册 类 型 2 失效 的 个 体 数 目 。 

就 已 知 考 克 斯 CRM 而 言 , 其 似 然 吨 数 是 : 


2 exp[ Xi (tr ) 8, | 
LA 9 = 十 I DeRc) expL Xi ts ) 8B; (19., 10) 


nr 
其 中 ， 


此 
_ exp[ x; ( ) | 
L; (8;) 1 Vn yexpL x (22) 0 (19. 11) 


注意 ,这 种 似 然 函 数 具 有 下 述 四 个 特性 ; (1) L098,) 是 17. 8. 2 节 曾 研究 的 偏 


f9 多 重 风险 模型 
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似 然 函数 。 由 于 基准 风险 函数 不 存在 , 故 可 应 用 前 面 所 述 的 渐 近 结果 。(2) 倘若 
风险 是 独立 的 , 则 对 LCB1,…,B) 联 立 求 极 大 值 可 通过 使 每 一 个 个 体 因 子 L (8,) 
极 大 化 来 得 到 ;因此 ,不 论 是 联 立 极 大 化 还 是 各 自 极 大 化 ,其 结果 都 是 等 价 的 。 通 
过 将 标准 渐 近 方法 用 于 m 项 似 然 也 数 的 每 个 个 体 因 子 , 完 成 对 各 个 8; 的 估计 与 
比较 。(3) 将 17.7 节 与 17.8 节 的 思想 直接 加 以 推广 。 若 离散 时 间 ( 虚 拟 变 量 ) 公 
式 用 于 每 一 种 风险 类 型 , 则 对 于 具有 6B; 的 每 一 种 风险 类 型 ,风险 函数 的 可 识别 成 
分 能 被 联 立 估计 出 。(4) 不 可 观测 异 质 性 完全 如 同 第 18 章 单 时 期 的 两 状态 比较 
风险 模型 那样 引信。 


19.2.3 CRM 的 识 别 


考 克 斯 (Cox，1962) 与 齐 亚 齐 斯 (Tsiatsis，1975) 证 明了 , 当 CRM 没有 协 恋 量 
时 ,模型 是 不 可 识别 的 。 更 准确 地 讲 , 这 意味 着 具有 相关 风险 的 任何 CRM 在 观测 
形式 上 等 价 于 具有 独立 风险 的 CRM。 不 过 , 赫 克 曼 和 奥 诺 雷 (Heckman and 
Honore，1989) 已 经 证 明 ,在 某 些 假设 下 ,具有 混合 PH 形式 并 带 有 协 变量 的 CRM 
是 可 识别 的 。 范 登 堡 (Van den Berg，2001 ,第 3 438 一 3 441 页 ) 提 供 了 支持 假设 的 
一 种 解释 。 除 第 17 章 曾 经 讨论 的 那些 假设 之 外 ,还 需要 一 些 假设 。 例 如 , 协 变量 
必须 表现 出 “充分 变异 ”, 并 且 不 应 该 是 完全 共 线 性 的 。 此 外 ,我 们 还 需要 ,各 个 不 
同 风险 的 基准 风险 不 应 该 是 完全 相关 的 。 


19. 2.4 夯 归 系数 的 解 杰 


在 CRM 的 比例 风险 形式 公式 里 , 协 变 量变 动 对 那 种 来 自己 知 状态 的 过 渡 风 
险 率 产生 的 影响 类 似 于 第 17 章 的 PH 模型 ,可 是 ,对 回归 系数 进行 直接 解释 所 遇 
到 的 问题 与 15. 4. 3 节 对 多 项 式 logit 讨论 时 过 到 的 解释 问题 相似 。 

不 过 ,人 们 还 可 能 对 协 变量 变动 对 经 由 路 线 退 出 概率 产生 的 影响 感 兴趣 。 这 
很 难 计 算出 来 。 为 了 理解 这 一 点 ,注意 到 ,经 由 路 线 > 退出 已 知 状态 的 概率 的 表达 
式 由 

Prlr le BJ]— 5 (19. 12) 

给 出 。 由 于 协 变 量 既 出 现在 分 子 中 又 出 现 于 分 母 中 ,而 且 分 母 是 所 有 风险 之 和 ,所 
以 偏 导 数 9 PrLr|r,x,Bj1/9zw 的 符号 依赖 于 模型 中 的 所 有 参数 。 于 是 ,Bi 的 符号 也 
是 此 偏 导 数 的 符号 ,这 一 点 并 不 成 立 ( 此 处 情形 完全 类 似 于 第 15 章 对 多 项 式 模 型 
的 讨论 ) 。 不 过 , 倘 看 竞争 风险 具有 比例 风险 形式 , 则 可 利用 下 述 结 果 [ 托马斯 
(Thomas,1996 ,第 31 页 )]。 当 pp VYJr 时 ,aePrLr|lr,x, 9] /azx 的 符号 为 
正 的 。 换 句 话 说 ,当心 () 的 估计 系数 大 于 所 有 其 他 风险 函数 的 相应 系数 时 , 则 x 
增 大 导致 经 由 路 线 ~ 退出 的 条 件 概率 增 大 。 


19.2.5 舍 有 不 可 观测 蜡 质 作 的 CRM 


如 果 竞 争 风 险 具 有 比例 风险 形式 ,那么 前 一 章 的 一 些 方 法 能 够 被 推广 到 包括 
不 可 观测 寞 质 性 的 情 沈 上 。 不 可 观测 异 质 性 的 一 般 设 定 考虑 到 特定 状态 的 随机 成 


微观 经 济 计量 学 
分 。 设 i (yi 9 9 Ym ) 是 乘法 不 可 观测 异 质 性 项 的 回 量 ,假定 该 异 质 性 项 具有 联合 
分 布 函数 CG(Cz) ,那么 : 


filr,r | XxX, ,rv) —— A; (Tt | Xi » /3, ,vj )exp| >) 一 Ai(Cr| 入 ,BG; sv; ) | 
J 一】 


= Nrlx, GD)wexpl| 27 — Mr x ,Biv | 
j=1 


其 中 ,第 二 行 是 由 乘法 异 质 性 的 假设 而 得 到 的 。 
这 是 一 个 具有 特定 状态 随机 效应 的 竞争 风险 模型 的 例子 。 关 于 v 的 边缘 分 
布 , 可 通过 针对 z 进行 积分 而 获得 : 


fer | XxX, ) [Eee X; ,B vexp > 人; (tr| XX) ,Bi )v; ldG (rv) 
j=1 


上 式 包 含 一 个 m 重 积 分 。 

一 种 可 操控 的 情况 是 ,v 的 m 个 元 素 都 是 独立 的 并 服从 伽 玛 分 布 的 随机 变量 。 
在 此 情况 下 ,m 重 积分 分 解 成 mm 个 积分 之 积 。 一 个 例子 是 如 下 情况 :对 于 每 一 个 
特定 原因 风险 函数 ,我 们 具有 威 布尔 一 做 玛 混合 。 在 此 情况 下 ,竞争 风险 是 独立 的 。 

倘若 我 们 允许 >” 的 元 素 成 为 相关 的 , 则 得 到 竞争 风险 是 相关 的 一 种 更 有 趣 的 
情况 。 实 际 上 ,这 是 一 种 广泛 用 于 生成 各 个 竞争 风险 之 间 相 关 性 的 “技巧 ”。 具 体 地 
讲 ,假如 我 们 有 关于 v 的 多 变量 对 数 正 态 分 布 , 即 [n yy ，…jinwj] 一 M10, 王 ]。 这 
有 两 种 后 果 。 第 一 , 它 通过 异 质 性 而 引起 竞争 风险 的 相关 性 ;第 二 , 它 使 得 极 大 似 
然 估 计 的 计算 变 得 相当 困难 。 原 因 是 后 者 作为 一 个 mx 重 积 分 没有 解析 表达 式 。 
因此 ,要 应 用 蒙特 卡 罗 积 分 。 如 果 如 同 许多 应 用 例子 一 样 ,m 等 于 2 或 3, 这 仍 是 可 
操控 的 ,但 完全 不 是 平凡 情形 。 为 了 减少 积分 的 维 数 ,对 协 方 差 和 矩阵 的 结构 加 以 约 
束 可 能 会 有 用 。 例 如 ,我 们 可 使 用 因子 结构 ,其 中 ,每 一 项 六 可 能 被 设 定 为 (比如 
说 ) 两 个 iid 随机 变量 的 线性 函数 ,这 两 个 随机 变量 具有 未 知 权 重 ( 因 子 载荷 ) 。 为 
了 可 识别 性 ,可 能 必须 对 权重 系数 进行 正规 化 约束 。 


19. 2.6 含有 枯 依 竞 邹 风险 的 CRM 


与 那 种 通过 各 个 不 同 竞 争 风 险 相 关 的 异 质 性 变量 引起 的 相依 性 模型 相 比 , 独 
六 CRM 具有 重要 的 计算 优势 。 不 过 ,后 者 会 产生 有 关 异 质 性 结构 的 有 价值 的 额 
外 信息 ,诸如 关联 参数 。 然 而 ,仍然 存在 着 人 们 应 该 如 何 选择 对 相关 异 质 性 的 设 定 
加 以 约束 的 实际 问题 。 为 了 便于 解释 ,让 我 们 考虑 在 像 二 元 回归 的 设置 条 件 下 , 运 
用 下 述 类 似 于 式 (17. 20) 的 设置 . 


ml |， (WwW du |= 一 xX [31—vyi 十 e 
In| 2 G0 du |=— X DB; 一 风 十 s 


现在 ,我 们 能 假定 v 二 vw 二 v, 也 就 是 说 ,这 两 个 风险 模型 有 完全 相同 的 不 可 观测 异 
质 性 。 该 假设 是 ,同样 的 不 可 观测 因子 都 会 影响 时 期 ,但 它们 的 影响 却 不 一 样 。 这 


本 证 


相当 于 跨越 两 个 风险 完全 相关 的 异 质 性 。 粗 略 地 讲 , 我 们 能 假定 ,比如 v 与 v。 是 
相关 的 ,并 对 关联 参数 进行 估计 。 我 们 把 这 些 分 别 考 虑 成 异 质 性 的 单 因子 模型 与 
两 因子 模型 。 从 实证 上 看 ,更 具 约 东 性 的 方法 是 人 们 所 希望 的 ,这 依赖 于 其 内 容 。 
例如 , 奉 两 个 风险 从 属于 一 个 相同 个 体 , 从 而 我 们 将 与 vs 看 成 是 反映 特定 个 体 
因子 , 则 单 因子 模型 被 证 实 为 正确 的 。 不 过 ,倘若 我 们 将 两 个 因子 看 成 是 特定 风 
险 , 则 两 因子 模型 更 吸引 人 。 当 两 因子 模型 是 正确 设 定时 , 某 种 理论 以 及 蒙特 卡 罗 
证 据 表 明 , 运 用 单 因 子 模型 引起 显著 曲解 [ 林 德 布 姆 和 范 登 保 (Lindeboom and Van 
den Berg,1994) |。 


19. 3 联合 持续 期 限 分 布 


本 市 考察 相交 时 期 或 者 并 行 时 期 的 情况 ,这 里 的 时 期 是 相关 的 。 假 设 生 存 时 
间 是 连续 的 。 解 释 是 针对 一 般 水 平 的 ,为 了 简单 起 见 , 要 限制 时 期 是 未 删 失 的 且 服 
从 参数 分 布 。 

在 联合 分 布 生存 时 间 的 应 用 研究 中 ,一 个 自然 起 点 是 ,使 用 联合 生存 的 或 联合 
密度 晴 数 的 特殊 函数 形式 。 和 存在 可 利用 标准 “ 孙 数 形式 ” 吗 ? 或 者 ,有 一 般 方法 用 
于 生成 前 面 几 章 曾 讨论 的 模型 的 多 变量 对 应 内 容 吗 ? 下 面 ,我 们 就 考察 这 些 问题 。 


19. 3. 多 变量 背 角 下 的 生存 爸 念 推广 


通过 将 前 两 章 的 定义 与 概率 推广 到 多 变量 情况 来 开始 是 有 益 的 。 
一 个 多 变量 生存 晴 数 S(t) 被 定义 成 


S(O)—=S ,,t,) (19. 13) 
一 Prl TT, >> > 
其 中 , 工 vs 表示 gq 个 生存 时 间 ,它们 具有 单 变量 生存 函数 Sj(t;)o 由 定义 知 : 
S;(t;)=Pr| Tt (19. 14) 
二 S(T 之 0 ,了 ;之 t; 了 0) 
一 LO， ,yy0) 
与 单 变 量 生 存 男 数 情 况 不 同 ,有 : 
SC »""* ol ol F(t ，*"" to) 
例如 ,SG ,t;) 二 1 一 Ft) 一 F(t;) 十 F(t ,ts ) 。 
(1 的 联合 密度 用 大 ;to ) 表 不 ;如 果 F(t 加) 是 连续 的 ,那么 : 








-rr 1g DPC ) 
fd) (19. 15) 
与 单 变量 情况 相 类 似 , 联 合 风 险 艺 数 是 At 5 ,表示 为 : 
Ca 
人 (Et ， ,to ) SC 5 (19， 16) 


做 观 经 济 计量 学 
联合 综合 风险 A(t,…,t) 是 AC ,…,4) 的 9g 重 积 分 。 然 而 ,A (wi,…,1) 与 
S(t) 之 间 并 不 存在 着 单 变 量 情 况 的 关系 式 。 z 

已 知 这 些 定 义 , 能 推导 出 联合 生存 晒 数 吗 ? 克 菜 顿 与 库 济 克 (Clayton and 
Cuziuk，1985) 已 经 考察 了 二 元 变量 模型 ,并 前 述 这 里 给 出 的 定义 。 他 们 分 析 的 起 
点 是 ,关于 “交叉 风险 比率 ”(cross-hazard ratio) 函数 的 假设 ,该 函数 是 给 定 T, 二 1， 
与 TT 之 t; 时 ,4 的 两 个 条 件 风 险 函 数 。 这 就 产生 一 个 非 线性 的 二 阶 偏 微分 方程 ， 
该 方程 的 解 生成 一 个 联合 生存 函数 ,其 中 ,交叉 风险 比率 郴 数 起 着 重要 作用 。 我 们 
详细 前 述 最 初 来 源 ,但 注意 到 ,这 种 方法 要 求 的 一 些 假设 可 能 很 难 被 推广 到 比 二 元 
恋 量 更 多 维 数 的 情况 。 


19. 3. 2 基于 万 综 的 二 元 变量 分 布 


本 区 简要 评述 某 些 生成 二 元 变量 持续 期 限 模型 的 方法 。 这 种 方法 建立 在 有 关 
边缘 生存 函数 的 假设 基础 上 。 倘 若 研 究 者 对 边缘 分 布 有 好 感 ,并 且 和 希望 用 它们 作 
为 组 成 部 分 ,这 可 能 有 益 。 当 然 ,对 组 成 部 分 的 选择 要 对 所 得 到 的 联合 分 布 形式 施 
加 一 些 约束 。 

归功 于 马歇尔 和 奥 利 金 (Marshall and Olkin，1990) 的 一 种 方法 ,以 下 述 方 式 考 
察 :两 个 失效 时 间 的 边缘 分 布 中 都 含有 乘法 不 可 观测 异 质 性 的 模型 。 设 f(z; | x,v)， 
i 一 1,2 表示 给 定 协 变量 x ,xs 时 六 , 声 的 边缘 分 布 , 这 里 ,表示 这 两 个 边缘 分 布 共 
同 的 不 可 观测 异 质 性 项 ,而 且 是 两 个 风险 之 间 关 联 的 根源 。 在 生存 分 析 中 ,这 类 模 
型 称 为 “共有 脆弱 性 ”模型 ; 它 是 ti 与 之 加 相关 性 的 (唯一 ) 根 源 。 假定 vv>0, 服 
从 密度 为 g(v) 的 概率 分 布 。4 ,i; 的 二 变量 分 布 被 正式 定义 成 : 


fp1 ts | Xi ,Xs) 一 | fi xi 5) fa (tz | Xa sy) gC) dy (19. 17) 


其 中 ,为 了 记号 简单 ,没有 使 用 分 布 参数 。 

这 种 生成 为 混合 形式 的 二 变量 分 布 可 有 闭 形式 解 或 没有 闭 形式 解 。 它 也 是 所 
得 到 的 二 变量 分 布 将 4 与 t; 之 间 的 相关 关系 限制 成 正 的 那 种 情况 。 在 某 些 情况 
下 ,这 可 能 并 不 是 人 们 所 希望 的 。 

可 用 于 任何 数据 类 型 的 这 种 一 般 方法 能 被 特定 化 成 如 下 情况 :用 边缘 生存 应 
数 (marginal survivor functions) 代 替 边 缘 消 数 ,然后 对 变量 vy 加 以 积分 ,推导 联合 
生存 困 数 (joint survivor functions); 因 而, 有: 


(CD s1» | XI ，X2 ) 一 | s 《及 | Xi 7) (Et 站 > ,vy) 2 (vy) dy (19. 18) 
(} 


应 用 这 种 思想 的 一 个 例子 是 由 克 莱 顿 和 库 济 殉 (Clayton and Cuzick，1985) 给 出 
的 ,他 们 运用 该 公式 在 边 绿 比例 风险 含有 傣 玛 异 质 性 的 假设 下 ,获得 二 变量 生存 
曙 数 。 

用 于 说 明生 成 二 变量 生存 模型 的 该 方法 有 点 受 限 制 。 其 限制 的 一 个 根源 是 ， 
单 因 子 不 可 观测 异 质 性 的 假设 。 原则 上 ,此 类 限制 容易 去 掉 。 例 如 ,我 们 能 用 
(yiv2) 代 糙 vyv， 其 中 ,yi 证 0 和 思 >0 代表 两 个 相关 成 分 的 问 量 ,对 生存 咀 数 都 是 具 
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体 的 ,具有 联合 概率 分 布 gt )。 于 是 : 
LGA 9 Ly? | 》 ,XK ) 一 | | ss (# | x | ) SY, (1» | 为 > ，172 gy sv» dv 1 cy» (19., 19) 


为 了 具体 起 见 , 假 定 : 


y1 一 cl 十 colzE， 
DJ2 一 CU21E1 十 cozzgs 


Ei 一 | 1， o? | ， 1 一 ,2 


其 中 , (wi ,i,j 一 1,2) 是 未 知 参 数 , 经 常 被 称 为 “因子 载荷 ”(factor loadings) 。 这 表 
明 , 当 因 子 载荷 不 为 0 时 , 异 质 性 成 分 (1 ,v;) 是 iid 的 随机 成 分 ej 与 e 的 相关 线性 
组 合 。 在 实证 研究 中 ,其 他 流行 的 假设 是 : (i) (ins ,lne; ) 服 从 标准 二 元 正 态 分 布 ; 
或 (ii) wm .vw 服从 离散 (有限 混 合 ) 分 布 。 因 此 ,模型 (19. 19) 是 一 种 二 变量 混合 形 
式 。 为 外 的 识别 限制 (比如 ,正规 化 w= 二 1) 也 是 必 不 可 少 的 。v 与 vw 之 间 的 皮尔 
还 相关 系数 , 即 CovLo ,vz jj/[L VELy jjViys ,依赖 于 (wo ， ,i,j 二 1,2) ,而且 可 
以 直接 证 明 ,这 个 量 并 没有 以 通常 的 一 1 与 十 1 作为 下 界 与 上 界 。( 而 且 , 注 意 到 ， 
对 应 的 失效 时 间 关 联 参 数 是 Cov[4 ,zs /LVLa VE]] 2 , 它 确实 不 同 于 给 定 情 
沉 .) 范 登 堡 (Van den Berg，1997) 针 对 具有 常 值 基准 风险 的 混合 比例 风险 模型 , 推 
导出 确切 的 CorLti,tzs|xj 的 上 界 , 具 体 地 讲 , 一 1/3 二 Cor[ii ,ts |x| 二 1/2, 同 时 证 明 
了 ,这 些 边 者 不 依赖 于 协 变量 x, 也 不 依赖 于 异 质 性 分 布 。 另 外 , 当 基 准 风 险 不 为 
常 值 时 ,相关 性 边界 还 是 依赖 于 它们 。 

相对 于 那 种 不 可 观测 异 质 性 成 分 以 未 限制 方式 进入 的 情形 ,因子 载荷 设 定 具 
有 计算 优点 ,尽管 单 因子 模型 可 能 显得 限制 性 太 强 ,但 未 限制 模型 会 产生 潜在 高 维 
积分 。 从 计算 观点 上 看 ,所 得 到 的 分 布 可 能 容易 处 理 , 也 可 能 不 容易 处 理 , 这 部 分 
地 依赖 于 积分 是 否 会 产生 联合 生存 函数 的 闭 形 式 表达 式 。 倘 若 没 有 闭 形 式 表达 
式 , 则 需要 用 基于 模拟 的 方法 加 以 估计 。 目 前 ,对 此 类 模型 进行 估计 已 超出 了 标准 
软件 包 所 涵盖 的 内 容 。 

因子 载 集 设 定 对 模型 施加 了 一 些 约束 | 范 登 堡 (Van den Berg,2001) , 林 登 布 
姆 和 范 登 堡 (Lindenboom and Van den Berg，1994) 1。 例如 ,如 果 一 个 边缘 模型 并 
不 显示 存在 不 可 观测 异 质 性 ,那么 Cov[Lw ,vs |] 一 定 为 0; 当 VLyv >0 是 V[v] 守 0 
时 ,Covly ,V2 | 天 0。 因此 , 当 Cov|y ,v2 | 二 0 时 , 则 边 绿 模型 中 的 每 一 个 都 没有 不 
可 观测 异 质 性 。 

从 应 用 观点 看 , 引 人 注 目的 多 变量 生存 函数 应 该 是 灵活 的 。 上 面 概述 的 方法 
存在 一 些 局 限 性 。 人 们 已 经 提出 了 一 些 可 供 选 择 的 方法 。 比 较 有 把 握 的 一 种 方法 
是 ,使 用 联接 方法 清 数 。 霍 高 (Hougaard，2000, 第 435 一 437 页 ) 在 生存 分 析 背 景 
下 ,对 此 种 方法 给 出 了 一 个 介绍 。 


19. 3.3 ”联接 方法 


联接 (coupila) 最 初 是 由 斯 克拉 (Sklar) 于 1959 年 在 他 的 法 文 文章 中 [也 可 参见 
斯 殉 拉 (Sklar,1973) ] 引 入 的 , 当 已 知 边缘 分 布 ,尤其 是 当 人 们 想 要 以 非 正 态 分 布 
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进行 镀 究 时 ,为 了 推导 联合 分 布 而 提出 的 一 种 有 用 方法 。 昌 然 我 们 在 联合 生存 模 
型 背景 下 引进 联接 的 思想 ,这 里 很 容易 应 用 它 ,但 还 可 以 用 它 探索 离散 、 连 续 或 者 
混合 离散 /连续 型 变量 的 任何 集合 的 联合 分 布 。 

前 面 讨 论 过 的 一 些 方法 (比如 , 马 软 尔 和 奥 利 方 法 ) ,通过 不 可 观测 异 质 性 成 分 
产生 了 变量 间 的 相依 性 。 在 大 部 分 应 用 中 ,这 看 起 来 引 人 人 注目, 因为 就 观测 到 协 变 
量 而 言 , 不 可 能 普 关 经济 事件 的 所 有 有 关 方 面 。 

联接 的 性 质 

为 了 定义 联接 ,我 们 以 [0, 1j 区 间 上 的 相依 均匀 随机 变量 Di ,…,U, 开始 是 可 
行 的 。 相 关 关 系 C17(dependence relationship) ,可 通过 随机 变量 的 联合 cdf， 


Cl M1 ; "U0 ) — Pr| U, < ,UU ,| (19, 20) 


加 以 描述 ,其 中 ,也 数 Cl。) 表 示 联 接 ,wu; 表示 U; 的 特殊 实现 值 ,j 二 1,…,g。 
右边 是 联合 cdf, 即 F(:), 而 且 联 接 的 g 个 自 变 量 能 用 g 个 边缘 cdf Fj(:),…， 
F (代替 。 也 就 是 说 ,联合 cdf 定义 为 : 


COPFI CD) ss Pu))=P(u ,wu,) 


就 基于 联接 建立 联合 cdf 而 言 , 我 们 先 选 取 一 系列 边缘 ,然后 对 所 选 边 缘 加 以 组 
合 , 以便 生成 联合 cdf。 给 定 联 接 是 关于 所 选 边缘 组 合 的 函数 形式 ,而 对 C(。.) 的 
不 同 选取 会 产生 各 种 不 同 联 合 cdf。 斯 克拉 定理 (Sklar’”s theorem) 建立 了 下 述 内 
容 ; 多 变量 分 布 晴 数 能 用 式 (19. 20) 的 形式 表示 ,同时 若 已 知 连续 边缘 , 则 该 联接 表 
示 是 唯一 的 。 

当 对 多 变量 生存 函数 专门 研究 时 ,斯 克拉 和 定理 表明 ,9 维 多 变 量 生 存 函 数 
SG ,… ,by) 具 有 相应 的 联接 表示 CCSi1(41),… ,S(t,))。 

考察 gq 二 2 的 情况 。 于 是 ,有 : 


Flti,te)—=Pr Tt, < fo] 
一 1 一 Pr| 全 >11 |] 一 Prl T >i, I+ Pr[ TT > 了， >1, | 


S(t1,t2)=Pr[ TL, T, >i, | 
=1—F(t)— F(t,)T FEF ,t;) 
~ S) (Zz) ) 二 Si) 一 1 十 CC(1L 一 9 《二 ) | 一 > (zt )) 


其 中 ,CC ) 称 为 生存 联接 (survivor copula) 。 现 在 注意 到 ,SG ,ts) 仅 仅 是 边 毕 生存 
国 数 的 一 种 函数 。 

联接 拥有 下 述 某 种 对 称 性 质 ; 它 允许 以 联接 或 生存 联接 开始 研究 [内 尔 挝 
(Nelsen,1999) ]。 乔 (Joe，1997) 将 与 下 (.) 有 关 的 二 变量 联接 记 为 Ctu,v) ,定义 
成 单位 正方 形 L0,1j 上 的 二 维 概 率 分 布 函数 。 对 于 所 有 (u,v) EL0,11,C(u,0)= 
C(O0,v) 二 0,C(wu,1)= 二 ww 并 且 C(1,v)= 二 wv。 在 生存 联接 背景 下 ,我 们 用 边 毕 生存 昭 
数 SG) 代 和 蔡 wx, 同时 用 第 二 个 边缘 生存 基数 SG) 代替 mw。 在 这 种 记号 下 ,斯 克拉 


[C12 又 称 为 相依 性 。 一 一 译 者 注 
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定理 表明 ,存在 一 个 联接 函数 C, 使 得 ， 
Flusv) = (wu) ,FPF,(v)) (19. 21) 


其 中 ,Fl(wu,v) 二 PrLU< 二 u,V 二 vj 表示 随机 变量 U 与 V 的 二 元 分 函数 ,FF (4) 与 
FF (oo) 表 示 边 绿 分 布 图 数 。 

大 下 为 连续 的 ,并 且 单 变量 边缘 分 布 均 有 相应 分 位 函数 已 与 下 , 则 式 
(19. 21) 的 唯一 联接 能 被 表述 成 : 


Cuisus)=F(F, (nu),F,'(v)) 


联接 方法 涉及 对 每 个 随机 变量 的 边缘 分 布 进行 设 定 , 还 要 设 定 一 个 将 它们 连 
接 起 来 的 肾 数 。 对 联接 函数 加 以 参数 化 ,以 便 包 括 边 缘分 布 之 间 的 相关 性 测量 ， 
倘 厂 没有 检查 出 相关 性 , 则 这 两 个 边缘 分 布 是 独立 的 ,从 而 能 分 别 对 每 一 个 变量 加 
以 估计 。 不 过 , 硅 存 在 相关 性 ,通过 经 由 联接 函数 而 重新 得 到 的 联合 分 布 可 求 改进 
后 的 估计 。 由 于 无 论 边缘 分 布 的 形式 怎样 ,联接 都 能 获得 相关 性 结构 ,所 以 有 关 变 
量 建 模 的 联接 方法 对 经 济 计 量 学 家 来 说 ,具有 极为 有 用 的 潜在 价值 。 弗 雷 谢 界 
(Frechet bounds) 使 得 借助 于 任何 联接 所 容许 探讨 的 相关 性 范围 变 得 可 行 。 

现在 ,考察 具有 9 个 持续 期 限 ( 工 ,…,T,) 的 一 个 例子 ,倘若 有 共同 忽略 不 可 观 
测 异 质 性 ， 则 9 个 持续 期 限 是 条 件 独 立 的 ;为 了 简单 起 见 , 将 协 变 量 剔除 掉 。 于 
是 ,条 件 联 合生 存 函 数 是 : 

PrL Ti ti Ti Ny)=PrL TT > Ny XxX: XPrLT, 二 
一 Si) SC) 
并 且 多 变量 生存 函数 被 定义 成 : 
Pr Tt, Tt |=ELS GeS (to) |y] (19. 22) 


测算 相关 性 

联接 吗 数 形式 本 号 并 不 依赖 于 单 变 量 边 缘分 布 的 形式 。 通 常 ,联接 是 对 能 后 
成 测量 单 变量 边 绿 分布 之 间 相 关 性 的 那 种 参数 加 以 设 定 。 一 般 地 讲 , 相 关 性 被 参 
数 化 成 一 个 纯 量 测量 。 为 了 简单 起 见 , 这 里 关注 二 变量 联接 。 

对 离散 随机 变量 来 说 ,联接 表达 式 不 一 定 是 唯一 的 [ 乔 (Joe,1997, 第 14 页 )]。 
在 实际 应 用 中 ,这 不 是 一 个 主要 问题 ,因为 关心 内 容 是 去 通 近 一 个 未 知 的 联合 分 
布 。 建 模 关 键 问 题 是 ,选择 联接 肾 数 的 一 个 充分 灵活 的 参数 形式 。 

很 难 对 来 自 联接 的 相关 性 参数 给 出 一 种 解释 ,因为 它们 不 一 定位 于 [0,1j 区 
间 。 因 此 ,一 种 习惯 做 法 是 ,将 相关 性 参数 (dependence parameter) 转 变 成 熟悉 的 关 
联 性 测量 ,比如 肯 德 尔 rz 或 斯 皮尔 曼 o; 参 见 乔 (Joe，1997)。 施 魏 策 尔 和 旋 尔 夫 
(Schweizer and Wolff，1981) 已 经 证 明 ,斯 皮尔 曼 o 相关 系数 只 能 根据 联接 函数 加 
以 表述 ;因而 ,有 : 


olti,t2) 一 12|| (Ce — uu }dudv 


考察 任何 二 变量 联合 cdf F(z ,tz), 该 联合 cdf 具有 一 元 边缘 cdf Fi (5 ) 与 
cdf FPF, (1, ) 。 由 定义 ,0 过 Fi (4 ),F;(t;) 声 1, 这 是 因为 每 个 边缘 分 布 都 在 范围 [0,1|] 
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上 取 值 。 借 助 于 弗 雷 谢 下 界 下 与 上 界 FT ,联合 cdf 是 下 有 界 的 与 上 有 界 的 ,其 
中 ,FF 与 “被 定义 成 


站 (三 ;t2 ) 之 了 一 (1 ,;t2 ) =max| FPF (£1 ) 十 F;, (1»)—1,0 | 
P(r ,to ) FT (£1 ,t; ) =min| FF (#11) ,P(t,) | 


由 于 联接 是 联合 cdf , 故 联 接 同样 受 限 于 弗 雷 谢 界 。 弗 雷 谢 界 的 信息 在 选择 合适 联 
接 时 极为 重要 。 每 一 个 联接 都 对 其 相关 参数 9 允许 施加 上 界限 。 二 变量 联接 的 一 
个 令 人 满意 的 性 质 是 , 当 0 接 近 于 其 允许 范围 的 下 界 ( 上 界 ) 时 ,该 联接 接近 于 弗 雷 
谢 下 界 ( 弗 雷 谢 上 界 ) 。 可 是 ,一 个 联接 的 参数 形式 可 能 会 加 上 一 些 约束 ,使 得 一 个 
或 两 个 弗 雷 谢 界 没 有 被 包括 在 允许 范围 之 内 。 因 此 ,一 个 特定 联接 对 某 个 数据 集 
来 说 可 能 是 更 好 的 选择 ,但 对 另 一 个 则 不 是 。 

例子 

表 19. 1 给 出 了 文献 中 经 常 运 用 的 某 些 二 变量 联接 消 数 的 一 些 例子 。 乔 (Joe， 
1997) 讨 论 了 这 些 联接 的 性 质 。 


表 19. 1 某 些 标准 联接 函数 


联接 类 型 也 数 定义 域 

乘积 形式 Uv na? 

FGMS: uv(l1+0(1—w) (1—v)) 一 1<0 一 十 1 

正 态 形式 LE (EECo3;0] 一 1<<0 一 十 1 

克 莱 顿 (az 十 2 一 1) 1 OE (0,co) 

弗 骨 页 On (le Y) (le ®))/y, y=1—e™ GE (一 co,co) 
"na 表示 不 可 应 用 。 


b FGMS 表示 Farljie - Gumble - Morgenstern 联接 。 
“ 加 表示 二 变量 正 态 cdf。 


正 态 联接 与 弗 朋 元 (Frank) 联 接 丰 其 人 外 许 范围 内 包含 两 个 弗 雷 谢 界 。 克 菜 顿 
(Clayton) 联 接 归 属于 阿 基 米 德 族 (Archimedean family), 其 表达 式 为 Cl(u,v) 二 
$$ (1 一 2 十 g (1 一 v)) ;参见 史密斯 (Smith，2003)。 

假如 我 们 想 要 选择 元 莱 顿 联接 ,对 二 变量 生存 时 间 (t，z ) 进 行 建 模 。 那 么 ， 
依据 边缘 生存 模型 S(t ) 与 SC ) 表 述 的 二 变量 分 布 将 是 : 


(S(11) ?TS(t) Oo—1) 1 


我 们 假定 ,边缘 生存 函数 被 设 定 成 包括 至 多 相差 一 个 未 知 参 数 的 形式 。 如 同 前 面 
一 样 , 可 写 出 这 些 边 绿 生存 函数 ,以 便 捕 获 到 协 变量 与 不 可 观测 异 质 性 的 相关 性 。 
例如 ,将 这 些 边缘 生存 取 数 建立 在 比例 风险 模型 上 。 为 了 得 到 估计 值 ,我 们 依据 所 
得 到 的 二 变量 联接 ,应 用 极 大 似 然 法 。 

这 种 方法 并 不 是 没有 局 限 性 的 。 特 别 地 ,有 两 点 值得 注意 。 第 一 ,将 该 方法 推 
广 到 三 维 或 更 高 维 情况 并 不 容易 。 第 二 ,人 们 不 仅 需 要 选择 联接 的 特定 函数 形式 ， 
而 且 要 认识 到 它 在 捕获 给 定数 据 集 相 关 性 方面 的 潜在 限制 性 。 例 如 ,只 支持 正 相 
天 性 。 
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推导 来 自 联 接 的 似 然 
为 了 拟 合 来 自 ( 以 cdf 定义 的 ) 联 接 的 模型 ,第 一 步 是 选取 一 个 联接 ,第 二 步 是 
推导 来 自 联接 的 (以 pdf 定义 的 ) 似 然 函 数 。 一 旦 选 定 联接 ,就 要 考虑 含有 未 删 失 
失效 时 间 (z ,ts) 的 二 变量 模型 特殊 情况 的 似 然 函 数 。 定 义 fj; (1;)==9F,(t;)/91 
与 9C (让, 让)/9t;, 对 于 7 二 1,2, 定 义 C 12s(Fi,F;) 二 9C(F,F,)/9t19t;。 于 是 , 概 
率 密度 为 ， 
ffst2s) = ft) fo ts)C 1 CF 0) , F(t,)) (19. 23) 


其 中 ,Fn ,ts)==92 F(t ,ts)/9ti9t,, 它 用 于 构建 其 似 然 孙 数 ，。 右 删 失 观 测 值 出 现在 
数据 中 , 则 必须 适当 修改 似 然 函 数 。 

运用 各 种 不 同 联接 可 生成 非 般 套 模型 。 正 如 其 他 类 似 例 子 一 样 ,惩罚 对 数 似 
然 (penalized log-iikelihood) 值 能 用 于 对 各 种 联接 的 选取 。 


19. 4 多 重 时 期 


本 草 前 面 引 入 平行 状态 i127(parallel states) 与 循环 状态 之 间 的 差异 是 有 益 的 。 
平行 状态 涉及 一 些 平行 事件 ,诸如 处 于 就 业 与 拥有 健康 保险 ;循环 状态 涉及 序 贯 事 
件 ,比如 第 一 次 分 娩 、. 第 二 次 分 娩 等 。 多 重 时 期 术语 意 指 ,同样 事件 的 循环 状态 之 
间 的 持续 期 限 。 这 类 数据 的 联合 建 模 类 似 于 平行 状态 的 联合 建 模 , 因为 两 者 都 涉 
及 多 变量 概念 ,可 是 由 于 序 贯 事件 可 生成 风险 的 动态 相关 性 , 故 两 者 也 有 重要 的 差别 。 

考察 一 些 循环 事件 的 例子 。 劳 动力 市 场 中 的 个 体 者 可 能 经 历 了 就 业 与 失业 间 
的 一 系列 过 渡 。 例 如 ,青年 工人 可 能 记录 着 一 系列 的 失业 时 期 。 纽 曼 和 麦 卡 洛克 
(Newman and McCulloch,，1984) 考 察 了 风险 框架 下 的 分 娩 时 间 。 如 果 一 个 人 想 
要 对 一 系列 分 娩 中 的 每 一 次 分 娩 风 险 率 进行 建 模 ,那么 研究 就 必须 给 出 分 娩 持 续 
期 限 之 间 的 相关 性 。 特 里 维 迪 和 亚历山大 (Trivedi and Alexander，1989) 针 对 澳 
大 利 亚 的 青年 人 失业 多 重 时 期 加 以 分 析 。 在 生育 力 文献 中 ,连续 分 娩 之 间 的 持续 
期 限 是 人 们 关注 的 内 容 [ 款 克 曼 、 霍 茨 和 沃克 (Heckman，Hotz，and Walker， 
1985) ]。 米 利和 帕 德 尼 (Mealli and Pudney，1996) 运 用 英国 退休 调查 数据 ,分 析 
了 驶 业 与 领取 养老 金 情 形 持 续 期 限 之 间 的 正 相 关 性 。 恩 格 尔 和 拉 塞 尔 (Engle and 
Russell，1998) 人 研究 了 股票 市 场 上 交易 的 特殊 股票 的 连续 交易 之 间 持 续 期 限 的 时 
同 序 列 。 史 蒂 文 斯 (Stevens，1999) 借 助 贫困 的 多 重 时 期 ,分 析 了 个 体 寿命 中 贫困 
的 持续 性 。 

上 面 提 及 的 例子 具有 几 个 值得 注意 的 特性 。 以 先前 事件 为 条 件 的 事件 风险 率 
是 否 依赖 于 先前 事件 ,这 是 一 个 重要 的 建 模 问题 ;第 二 ,相关 性 的 形式 是 人 们 关注 
的 内 容 。 先 前 时 期 的 持续 期 限 可 能 在 确定 后 面 事件 的 风险 时 ,进入 到 协 变量 之 中 ; 
先前 事件 的 出 现 会 影响 到 后 面 时 期 的 基准 风险 。 最 后 ,不 可 观测 异 质 性 显示 出 序 
列 相关 性 。 上 述 每 一 个 问题 都 是 重要 的 建 模 问题 ，。 

多 重 时 期 (mutliple spells) 生 成 了 纵向 数据 或 面板 数据 ,这 类 数据 会 潜在 地 有 


L1J 又 称 为 并 行 状 态 。 一 一 译 者 注 
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助 于 解决 如 下 重要 识别 问题 :相对 于 风险 函数 中 的 异 质 性 而 言 ,动态 相关 性 的 影响 
所 引致 的 识别 问题 。 在 某 些 假 设 下 ,多 重 观测 值 会 使 控制 异 质 性 更 为 容易 ,并 且 进 
行 有 关 动 态 相 关 性 的 推断 。 

一 般 地 讲 , 如 人 们 所 料 ,含有 不 可 观测 蜡 质 性 与 时 期 之 间 相 关 性 的 生存 模型 很 
难 进 行 估 计 。 不 过 ,多 重 时 期 数据 却 创造 了 研究 唯 有 利用 面板 数据 才能 探讨 问题 
的 机 会 。 出 现 相 关 性 滞后 持续 期 限 相关 性 以 及 序列 相关 的 不 可 观测 异 质 性 就 是 
一 些 例子 。 不 论 出 现 滞 后 持续 期 限 还 是 出 现 相 关 性 ,都 意 指正 在 研究 中 的 先前 时 
期 个 数 或 持续 期 限 的 终止 概率 的 相关 性 。 已 知 此 类 相关 性 ,倘若 忽略 其 相关 性 , 则 
不 适宜 单独 对 时 期 加 以 研究 。 

考虑 到 为 多 重 时 期 选择 合适 的 经 济 计量 框架 ,如 同上 一 节 所 讨论 的 一 样 ,一 种 
可 能 性 是 运用 联合 生存 函数 对 相关 性 建 模 。 这 种 方法 照顾 到 了 数据 的 多 变量 特 
性 。 第 二 种 可 能 性 是 ,在 没有 忽略 日 历时 间 仍 有 关联 可 能 时 ,使 用 面板 数据 框架 ， 
用 时 期 下 标 代替 时 间 下 标 。 时 期 相关 性 会 引发 一 些 问题 ,这 将 在 22. 5 节 与 23.6 
节 的 动态 面板 模型 标题 下 加 以 讨论 。 在 这 两 种 情况 下 ,由 于 面板 损耗 或 者 大 部 分 
最 近 时 期 的 不 完整 而 出 现 的 删 失 可 能 性 导致 了 重要 差异 。 


19. 4. 1 丙肝 期 模型 


运用 两 时 期 比例 风险 模型 ,可 以 阐明 多 重 时 期 模型 的 一 系列 特性 。 在 经 济 计 
量 学 中 ,此 类 模型 已 由 奥 诺 雷 (HonoréE，1993) 与 埠 罗 威 奖 和 李 (Horowitz and 
Lee，2003) 分 析 讨 论 过 。 

奥 庄 雷 (HonoréE，1993) 芝 经 考察 了 形式 为 : 


AsCt| xy 一 人 0 C1) GX, B)y, $s 二 1,2 (19., 24) 


的 比例 风险 模型 。 注 意 到 ,在 该 模型 设 定 中 ,基准 风险 是 特定 时 期 的 ,可 是 异 质 性 
成 分 却 不 是 ， 这 里 的 该 异 质 性 以 乘法 形式 进入 表达 式 ( 一 个 重要 假设 ) ,也 就 是 说 
代表 个 体 的 男 定 或 持久 特征 ,从 而 得 到 一 个 固定 效应 模型 。 在 类 似 于 第 18 章 讨 论 
的 混合 PH 那些 条 件 下 ,他 已 经 证 明 , 该 模型 是 可 识别 的 。 他 还 证 明 , 对 于 识别 来 
说 ,有 关 v 分 布 的 假设 不 是 基本 的 , 协 变 量 的 存在 也 不 是 基本 的 。 

在 第 二 种 模型 中 , 奥 诺 雷 考察 了 特定 时 期 乘法 异 质 性 成 分 上 与 wwv 与 凡 具 
有 联合 二 变量 pdf gCyi ,yz)。vy 与 w 之 间 的 相关 性 反映 出 序列 相关 的 异 质 性 。 这 
是 一 个 随机 效应 模型 。 如 同 式 (19. 19) 一 样 , 利 用 混合 分 布 gv,v), 借 助 于 二 变 
量 混合 方法 可 推导 联合 生存 图 数 S(t ,tz |x)。 奢 边缘 生存 函数 是 可 识别 的 , 则 联 
合生 存 函 数 也 是 可 识别 的 。 该 识别 条 件 本 质 上 是 PH 模型 可 识别 性 的 那些 条 件 。 

奥 诺 雷 还 讨论 了 ,两 时 期 模型 的 兆 后 持续 期 限 相 关 性 设 定 , 在 第 一 个 时 期 的 持 
续 期 限 ( 记 为 三) 以 乘法 形式 进 人 第 二 个 时 期 风险 的 假设 中 。 他 已 经 给 出 了 ,已 知 
协 变 量 与 i 时 第 二 个 时 期 条 件 模型 的 参数 可 识别 性 的 充分 条 件 。 这 里 ,就 不 讨论 
这 些 条 件 。 不 过 ,在 这 些 条 件 下 ,比例 风险 模型 的 多 重 时 期 形式 具有 如 下 形式 : 


A1 ti {Xi v1) = Ao (Lt) GD (19.25) 
A2 CL | xX» ;v2 ) = Ao,2 (1) CCX2 , [32 ) ys2 
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其 中 ,3% 一 (xz ,ti) 表 示 协 变量 的 增 广 癌 量 。 注 意 , 当 v 与 ww 相关 时 ,这 是 一 个 内 生 
性 问题 ,在 那 种 情况 下 ,4 与 vz 不 能 是 独立 的 。 

先前 出 现 的 事件 可 能 不 会 直接 转变 到 后 续 时 期 的 风险 函数 。 通 过 引入 新 的 协 
变量 ,也 可 能 改进 风险 的 设 定 。 例 如 ,失业 时 期 可 能 导致 对 培训 项 目的 注册 ,这 似 
平 能 影响 到 后 面 失 业 时 期 的 风险 。 硅 将 培训 变量 处 理 成 弱 外 生 的 , 则 该 模型 的 识 
别 性 受到 威胁 。 这 一 点 甚至 与 单一 时 期 的 模型 分 析 有 关 : 协 变量 与 不 可 观测 异 质 
性 是 不 相关 的 假设 是 有 害 的 。 

在 一 些 情况 下 ， 人 们 可 能 愿意 不 仅 对 处 于 一 个 状态 的 多 重 时 期 进行 建 模 ， 而 且 
对 于 其 他 状态 的 那些 时 期 也 要 加 以 建 模 。 例 如 ,存在 两 种 状态 ,要 么 就 业 要 么 失 
业 ,我 们 不 仪 对 最 近 失 业 时 期 的 长 度 如 何 影 响 到 当前 失业 时 期 感 兴 趣 ,而且 对 干预 
就 业 时 期 对 摆脱 失业 风险 的 影响 感 兴趣 。 另 外 . 当 个 体 处 于 一 个 状态 而 不 是 另 一 
个 状态 时 ,我 们 就 能 观测 到 个 体 的 信息 数据 。 例 如 ,管理 性 数据 只 涵盖 至 受 福利 救 
助 的 人 们 ,而 没有 涉及 无 福利 求助 的 任何 情况 。 


19. 4.2 更 一 般 的 多 重 肝 勘 模 型 


为 了 效 明 多 重 时 期 模型 潜 存 计算 复 末 性 ,我 们 通过 简略 描述 米利 和 由 德 尼 
(Mealli and Pudney，1996) 模 型 开始 讨论 。 

设 T 二 (rt ，… ,re) 表 示 上 维 完整 时 期 回 量 ,这 里 最 初 状 态 的 指标 为 7 的 ,而 
指定 状态 的 指标 为 六。 假定 在 控制 可 能 涉 后 持续 期 限 相 关 之 后 ,各 个 不 同时 期 的 
持续 期 限 是 独立 的 。 设 A (% ,G)) 表 示 特 定 指定 风险 函数 .并 设 x 二 [x ，…, Xj， 
B=| 6 ,3 。 

时 期 的 联合 密度 及 退出 路 线 为 : 

frisyrioTa ras oT | Xs XT 9) (19. 26) 
= f(r,n | Xi1 sr ;Of (Tes re | Xp roo rls rk? ,B) 
X SCr rr ly GD) 


&- ~ 
== Ta (zj | x Dr )exp(— 2 Mo xB)) 
j=] {一 ] 


这 里 ,假定 第 & 个 时 期 是 删 失 的 (正在 研究 的 ), 并 运用 关系 式 (17. 4) 与 式 (17. 6)。 
协 变量 包括 随 各 个 时 期 而 变化 的 以 及 可 能 湾 后 持续 期 限 。 这 个 公式 司 与 单 时 期 
CRM 公式 (19.7) 相 比较 。 

米利 和 帕 德 尼 (Mealli and Pudney.1996) 运 用 该 公式 作为 基础 ,建立 一 个 精 
臻 模型。 由 于 他 们 考虑 到 带 有 其 至 比 本 章 所 探讨 的 更 为 复杂 结构 的 不 可 观测 寞 质 
性 ,所 以 其 计算 方法 也 更 为 复杂 。 他 们 使 用 了 模拟 极 大 似 然 法 (参见 12. 4 市 )。 


19.5 竞争 风险 例子 :失业 持续 期 限 
第 17 章 与 第 18 章 讨论 的 持续 期 限 例子 ,关注 于 失业 时 期 的 时 间 ,而 忽略 了 过 


渡 后 的 指定 状态 。 这 里 ,我 们 对 麦 考 尔 (McCall，1996) 所 用 的 数据 进行 竞争 风险 
分 析 。 该 数据 区 分 了 三 种 不 同 指 定 状 态 : 在 调查 期 间 就 业 分 别处 于 第 1 次 安置 后 
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全 日 制 工作 、 第 1 次 安置 后 兼职 工作 、 第 1 次 安置 后 全 日 制 工作 或 兼职 工作 。 因 
而 ,人 们 对 这 些 假 设 放松 如 下 :风险 函数 不 依赖 于 指定 状态 ,同时 转 而 考虑 竞争 风 
险 公 式 , 其 中 ,独立 竞争 风险 决定 了 失业 持续 期 限 ， 

就 麦 考 尔 数据 集 而 言 , 前 面 提 及 的 三 种 状态 分 别 有 1 073、339 以 及 574 个 过 
渡 。 第 三 种 指定 状态 由 于 缺乏 清晰 解释 , 故 对 那 种 情况 的 结果 不 做 详细 讨论 。 对 
每 一 种 过 小 ,我 们 都 估计 出 四 种 参数 持续 期 限 模型 , 即 含有 逆 高 斯 异 质 性 的 指数 模 
型 与 威 布 尔 模型 ,以 及 没有 逆 高 斯 异 质 性 的 指数 模型 与 威 布尔 模型 。 尽 管 也 可 以 
考察 伽 玛 异 质 性 ,但 这 类 模型 在 计算 上 不 稳定 。 由 独立 竞争 风险 的 独立 性 假设 ,每 
一 次 估计 一 个 方程 。 节 选 的 计算 机 输出 部 分 ,已 由 表 19. 2 与 表 19. 3 给 出 ,这 里 仅 
关注 第 17 章 与 第 18 章 中 的 有 限 多 个 变量 ， 


表 19.2 失业 持续 期 限 :含有 IG 脆弱 性 与 没有 IG 脆弱 性 的 
指数 模型 的 竞争 风险 估计 和 值 和 独立 风险 估计 和 值 


没有 异 质 性 IG 异 质 性 
风险 系数 风险 1 风险 2 风险 3 风险 ] 风险 2 风险 3 
过 渡 1 073 339 574 1 073 339 574 
RR 0. 472 一 0.092 ”一 0. 600 0. 504 一 0.185 一 0.562 
(0. 601) (0.976) (0.725) (0. 614) (1.025) (0.744) 
DR 一 0. 575 一 0. 959 1. 122 一 0. 806 一 1.051 1. 078 
(0. 762) (1.247) (0.901) (0. 781) (1.295) (0.921) 
UI —1. 424 —1.047 —0. 966 一 1. 544 一 1.092  —0.963 
(0. 249) (0.524) (0.449) (0, 258) (0.544) (0.456) 
RRUI 0. 966 一 0.669 一 0.432 1. 057 一 0.742 一 0.482 
(0. 612) (1.192) (1.014) (0. 627) (1. 23) (1. 033) 
DRUI 一 0. 198 1. 987 2. 102 一 0. 012 2. 18 2. 158 
(1. 019) (1.727) (1.303) (1. 041) (1.788) (1.323) 
LNWANG 0.351 一 0. 257 0. 003 0. 373 一 0.321 一 0.007 
(0. 116) (0. 179) (0.145) (0. 118) (0.191) (0.147) 
TENURE 0 0.005 一 0.047 0. 000 6 0.007 一 0.047 
(0. 006) (0.013) (0.012) (0. 007) (0.014) (0.012) 
—InL 5 693. 63 5 687. 64 


19. 5.1 芝 委 风险 奏 活 下 的 信 计 


奋 将 含有 异 质 性 的 指数 模型 与 没有 异 质 性 的 指数 模型 两 两 对 比 , 则 显示 由 于 
引入 不 可 观测 异 质 性 而 导致 了 对 数 似 然 的 改进 。 这 种 结果 类 似 于 18. 8 节 所 报告 
的 形式 。 不 过 ,与 指数 模型 的 情形 相 比 ,含有 异 质 性 的 威 布尔 模型 有 较 高 的 对 数 似 
然 , 即 一 5 666 , 而 前 者 为 一 5 693。 含 有 道 高 斯 异 质 性 的 威 布尔 模型 有 最 高 的 对 数 
似 然 一 5 543, 从 而 看 起 来 似乎 是 四 个 模型 中 最 佳 的 。 这 一 点 不 应 该 被 解释 成 , 对 
于 推断 来 说 它 是 一 个 令 人 满意 的 模型 ,因为 该 问题 仍 未 解决 。 因 此 ,我 们 将 讨论 表 
19. 3 的 结果 。 
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威 布尔 模型 引进 不 可 观测 异 质 性 ,导致 了 全 部 三 个 风险 函数 中 风险 函数 斜率 
系数 佑 计 值 的 增 大 。 就 风险 1 而 言 ,这 种 系数 从 1. 29 增 大 到 1.75, 而 对 风险 2 来 
说 , 则 从 1. 08 增 大 到 1.65。 也 就 是 说 ,引信 不 可 观测 异 质 性 引起 了 持续 期 限 相 依 
性 大 幅 减 小 ,或 者 骤然 大 幅 增 加 失业 的 风险 。 这 些 变 化 沿 着 18. 5 节 分 析 预 测 的 线 
过 展开 。 在 威 布 尔 模型 中 ,加 入 不 可 观测 异 质 性 对 失业 保险 (UD 系数 的 影响 同样 
是 相当 大 的 ,就 绝对 数值 大 小 而 言 ,实质 上 变 得 较 大 。RR、DR、RRUI 以 及 DRUI 
的 系数 仍然 不 能 精确 地 得 以 确定 。 第 一 个 风险 函数 中 的 LNWANG 系数 是 显著 的 
日 正 的 ,而 第 二 个 风险 函数 的 系数 则 不 是 。 也 就 是 说 ,LNWANG 系数 的 增 大 促使 
了 那些 寻找 全 日 制 就 业 的 脱离 失业 的 过 渡 , 却 忽略 了 对 转向 兼职 就 业 的 那些 人 的 
影响 。 这 个 例子 说 明 , 竞 争 风 险 框架 如 何 区 分 各 种 不 同 风险 函数 中 变量 的 不 同 作 用 。 

同 理 , 考 察 19. 2 节 给 出 的 竞争 风险 模型 的 考 克 斯 模型 的 设 定 。 在 这 种 设 定 
中 ,不 可 观测 异 质 性 被 忽略 掉 , 并 且 基 准 风 险 不 是 以 参数 形式 设 定 的 , 却 如 同 
17. 8. 3 节 所 解释 的 那样 可 被 估计 出 来 。 与 表 19. 2 中 的 那些 指数 模型 相 比 , 表 
19. 3 中 的 最 后 三 列 给 出 了 点 估计 值 ,但 其 标准 误差 却 很 大 ,这 是 因为 考 克 斯 设 定 
与 指数 模型 设 定 相 比 更 缺乏 约束 。 失 业 保 险 的 估计 系数 更 接近 于 指数 模型 的 而 不 
是 威 布尔 - IG 模型 的 估计 系数 ;后 者 几乎 是 前 者 的 2 倍 。 威 布尔 -~ IG 模型 中 的 
LNWANG 系数 也 较 大 。 不 过 ,倘若 人 们 忽略 不 可 观测 异 质 性 , 则 不 可 能 识别 基准 
风险 。 图 19. 1 与 图 19. 2 分 别 表 明 ,对 于 三 个 指定 状态 来 说 ,计算 基准 生存 函数 与 
累积 风险 函数 ,但 是 这 些 可 被 更 好 地 解释 为 :反映 出 不 可 观测 异 质 性 与 持续 期 限 相 
关 的 某 种 未 知 混合 。 这 些 估 计 值 显示 ,那些 过 渡 到 全 日 制 就 业 的 基准 生存 函数 是 
最 低 的 , 且 位 于 其 他 两 个 基准 生存 函数 的 下 面 , 同 时 对 于 过 渡 到 兼职 就 业 的 基准 生 
存 函 数 , 它 是 最 平坦 的 并 且 最 高 。 相 应 地 ,那些 过 渡 到 全 日 制 就 业 的 累积 风险 函数 
则 是 三 个 当中 最 陡峭 的 。 


基准 生存 阴 数 


风险 1 (全 职工 作 ) 
风险 2 (兼职 工作 ) 


风险 3 (未 知 工 作 ) 


基准 生存 概率 





以 2 周 为 区 间 测 量 的 失业 持续 期 限 
19.1 失业 持续 期 限 : 来 自考 克 斯 竞争 风险 模型 的 估计 基准 生存 消 数 。 美 国 数据 从 1986 一 
1992 年 ,共计 3 343 个 时 期 , 某 些 是 未 完成 的 。 


这 里 的 讨论 与 分 析 仅仅 是 一 种 说 明 性 的 ,从 任何 意义 上 讲 不 是 终极 性 的 。 实 
际 上 ,有 好 的 理由 表明 , 威 布尔 风险 函数 是 一 种 错误 设 定 。 运 用 同样 数据 , 麦 考 尔 
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以 2 周 为 区 间 测 量 的 失业 持续 期 限 
19. 2 失业 持续 期 限 ,来 自考 克 斯 竞争 风险 模型 的 估计 基准 生存 函数 。 数据 与 图 19. 1 的 
一 样 。 


(McCall, 1996) 分 析 了 考虑 到 一 种 更 加 灵活 的 多 项 式 风险 也 数 , 并 提供 支持 浴 征 
形状 风险 的 证 据 , 这 意味 着 风险 递减 持续 期 限 至 低 点 ,然后 恒定 不 变 , 最 终 风险 增 
大 至 高 点 持续 期 限 。 单 调 威 布尔 风险 也 数 并 没有 捕获 到 该 种 可 能 性 。 其 他 研究 者 
利用 美国 数据 对 失业 持续 期 限 的 建 模 表明 ; 当 对 风险 函数 灵活 设 定时 ,引入 不 可 观 
测 异 质 性 对 其 结果 并 没有 大 的 影响 [ 迈 耶 (Meyer,1990); 哈恩 和 豪 斯 曼 (Han and 
Hausman,1990) ]。 我 们 在 这 里 没有 看 到 如 下 事实 ;该 事实 应 鼓励 运用 更 灵活 的 设 
定 ,诸如 17. 10 节 所 分 析 的 情况 。 / 


19.6 ”应 用 研究 


在 对 多 变量 生存 模型 建 模 时 ,一 种 实用 方法 是 ,在 开始 联 立 估计 之 前 以 边缘 模 
型 开始 。 这 种 策略 对 于 评定 最 初 设 定 的 统计 适宜 性 方面 是 有 益 的 。 

在 开始 研究 时 ,多 变量 生存 模型 与 风险 模型 的 统计 运算 ,在 绝 大 多 数 情 况 下 都 
需要 研究 者 自己 编程 ,通过 使 用 支持 软件 诸如 针对 用 户 所 定义 的 函数 极 大 化 或 极 
小 化 的 最 优 程序 ,能 够 很 容易 部 分 完成 任务 ,这 里 ,用 户 借助 于 许多 程序 与 编程 平 
台 使 用 函数 和 编程 语言 。 

含有 独立 风险 的 CRM 简化 了 一 系列 生存 模型 的 估计 ,其 原因 在 于 实际 运用 
的 信息 已 由 17. 12 节 给 出 。 一 般 的 多 变量 CRM 程序 ,很 难 在 商业 软件 包 中 找到 。 
可 是 ,有 支持 含有 特殊 相关 结构 的 某 些 多 变量 生存 模型 。 例 如 ,STATA 支持 共享 
脆弱 性 模型 的 计算 。 共 享 脆弱 性 模型 (shared frailty model) 是 一 种 随机 效应 模型 ， 
对 个 体 组 或 时 期 组 来 说 ,不 可 观测 异 质 性 的 一 些 元 素 是 共同 的 或 部 分 共同 分 享 的 ， 
并 对 不 同 组 来 说 是 随机 分 布 的 。 

如 果 主 要 关注 内 容 在 于 对 持续 期 限 之 间 的 相关 结构 进行 建 模 ,那么 联接 方法 
相对 于 二 变量 情况 的 极 大 模拟 似 然 法 来 说 ,潜在 地 更 为 吸引 人 ,因为 联接 方法 不 需 
要 数值 积分 。 对 于 维 数 高 于 二 维 的 情形 ,如 同 多 重 时 期 模型 情况 一 样 ,可 运用 联接 
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方法 ,但 已 出 版 文献 中 仅 有 相对 很 少 的 例子 。 边 缘 模 型 能 利用 标准 的 一 元 生存 模 
型 来 拟 合 与 检验 ,同时 相关 参数 运用 序 贯 二 阶段 方法 加 以 估计 。 即 使 所 有 参数 都 
可 联 立 佑 计 , 佑 计 边 缘 模 型 也 为 迭代 计算 提供 了 一 系列 的 初始 值 。 我 们 没有 发 现 
支持 这 些 模 型 估计 的 统计 软件 包 、。 


19. 7 文献 注释 


19.2 哈 因 和 褒 斯 曼 (Han and Hausman，1990) 给 出 CRM 的 一 个 例子 ,其 
中 , 设 定 被 推广 到 考虑 不 可 观测 异 质 性 。 在 具有 特定 状态 随机 效应 的 CRM 框架 
下 , 麦 考 尔 (McCall,，1996) 分 析 了 某 些 政策 变量 对 被 保险 失业 者 寻找 兼职 工作 行 
为 的 影响 ,他 运用 了 含有 相关 风险 的 CRM 模型 。 巴 特勤 .安德森 和 伯 克 豪 泽 
(Butler，Anderson，and Burkhauser，1989) 运 用 含有 相关 风险 的 CRM， 对 接受 工 
作风 险 与 临终 风险 加 以 建 模 。 

19.3 斯 克拉 在 1959 年 以 法 文 形式 发 表 了 关于 联接 的 原创 性 文章 ,后 来 斯 克 
拉 (Sklar，1973) 的 论文 是 以 英文 发 表 的 一 篇 优秀 论文 。 拉 杜 洛 维 奇 和 韦 格 坎 普 
(Radulovié and Wegkamp) 出 版 年 代 不 详 ) 提 出 了 斯 克拉 和 定理 的 一 种 证 明 。 弗 里 
斯 和 瓦尔 德 斯 (Frees and Valdez，1998) 对 联接 文献 给 出 一 个 非常 有 益 的 指导 性 概 
览 , 并 做 了 文献 评注 。 | 

19.4 米利 和 由 德 尼 (Mealli and Pudney，1996)、 弗 林 和 赫 克 曼 (Flinn and 
Heckman, 1982) 均 对 多 重 时 期 进行 了 探索 。 米 利和 帕 德 尼 (Mealli and Pudney， 
1996) 运 用 基于 模拟 的 估计 方法 ,对 有 权 宫 受 养老 金工 作 无 权 享 受 养 老 金工 作 以 
及 其 他 劳动 力 市 场 状态 之 间 的 过 渡 进 行 了 分 析 。 


习 题 


19 -1 [改编 自 萨 普兰 (Sapra,2000;2001) 。] 这 个 问题 涉及 阐明 19. 2 节 提 及 
的 竞争 风险 结果 的 考 克 斯 一 齐 亚 齐 斯 (Cox - Tsiatsis) 非 识别 的 一 个 例子 。 考 虑 下 
述 相关 竞争 风险 模型 ,其 中 ,我 们 观测 到 T= min(Ti,T) 与 6, 当 TT 二 TT 时 ,6 二 1; 
而 当 人 二 TT 时 ,6 二 2。 这 里 , 与 Ti 分 别 表示 风险 1 与 风险 2 的 潜在 持续 期 限 。 
假定 二 变量 联合 生存 四 数 是 S(ti ,已 ) 一 exp| 一 Qiti 十 A2ts)* ,0<a< 巡 1，) hy 盖 0。 
建立 一 个 独立 CRM, 该 CRM 等 价 于 特定 的 相关 竞争 风险 模型 。 

19 -2 对 于 土 面 问 题 中 的 特定 模型 , 奋 不 仅 工 是 可 观测 的 ,而 且 人 8 也 是 可 观 
测 的 ,请 用 风险 率 与 综合 风险 率 写 出 每 一 种 模型 的 对 数 似 然 栅 数 。 考 察 参 数 信息 
矩阵 ,并 证 明 所 有 参数 都 是 局 部 可 识别 的 ,因为 信息 矩阵 是 非 奇 异 的 。 

19-3 考察 两 个 平行 持续 期 限 , 比 如 说 失业 持续 期 限 荆 ,与 没有 个 人 健康 保 
险 时 期 的 持续 期 限 Ti ,假定 以 不 可 观测 异 质 性 为 条 件 的 这 两 个 持续 期 限 是 独立 
的 ,并 且 分 别 是 均值 为 BBix 与 yo 十 Xiz 的 指数 分 布 。 假 定 这 两 个 持续 期 限 模型 
的 乘法 不 可 观测 异 质 性 项 是 与 vw ;满足 Elv ] 王 EL |=1., 

(a) 对 于 你 选择 的 参数 值 , 请 写 出 一 个 算法 生成 (mm ,vs) 的 相关 实现 值 ,使 得 不 
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MM 


以 《vi ,v2 ) 为 条 件 却 以 工 为 条 件 的 两 个 持续 期 限 将 是 相关 的 。 你 可 随意 依据 数学 方 
法 或 其 他 立 式 来 对 Cy ,vz ) 联 合 分 布 做 出 引 人 注 目的 分 布 假设 。 请 解释 你 是 如 何 控 
制 两 个 持续 期 限 间 相关 的 范围 的 。 

(b) 运用 19. 3. 2 节 给 出 的 求 二 变量 联合 分 布 的 方法 ,推导 两 个 持续 期 限 的 联 
合 分 布 。 

(c) 描述 你 如 何 将 (b) 部 分 的 分 析 加 以 推广 , 以便 考虑 右 删 失 持 续 期 限 的 
存在 。 

19 -4 使 用 与 第 18 章 的 麦 考 尔 数据 集 相 同 的 子 样本 ,运用 含有 两 个 状态 的 
失业 与 就 业 的 两 状态 模型 进行 估计 (也 就 是 说 ,忽略 作为 两 个 可 供 选 择 的 指定 状态 
的 兼职 就 业 与 全 日 制 就 业 之 间 的 差异 )。 

(a) 用 单方 程 威 布尔 模型 进行 拟 合 ,并 将 其 结果 与 含有 威 布尔 设 定 的 独立 
CRM 的 那些 结果 加 以 比较 。 

(b) 评估 运用 CRM 设 定 而 引起 的 拟 合 优 度 的 改进 。 

(c) 计算 并 比较 源 于 单方 程 与 CRM 模型 的 在 解释 变量 样本 平均 值 处 计算 的 
失业 风险 的 拟 合 值 。 
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20.1 引 论 


在 许多 经 济 背景 下 ,关注 的 因 变 量 或 响应 变量 是 非 负 的 整数 或 者 计数 数据 ,我 
们 想 要 利用 回归 元 5134(regressor) 解 释 和 分 析 它 们 。 与 经 典 回归 模型 不 同 , 啊 应 变 
量 是 离散 的 ,其 分 布 仅仅 在 非 负 的 整数 值 上 具有 概率 质量 。 本 书 前 面 曾 讨论 的 几 
种 模型 ,诸如 二 值 结果 模型 与 持续 期 限 模型 ,都 和 计数 数据 回归 模型 密切 相关 。 计 
数 回 归 模 型 如 同 其 他 受 限 因 变 量 或 离散 因 变 量 模型 璧 如 logit 与 probit 模型 一 桩 ， 
都 是 非 线性 的 ,具有 与 离散 性 及 非 线性 密切 关联 的 许多 性 质 和 特殊 特性 。 

本 章 以 独立 的 横 截 面 观测 值 的 样本 数据 开始 ,考察 微观 经 济 计量 学 的 一 些 例 
子 。 生 育 力 研究 经 常 在 对 母亲 年 龄 设 定 区 间 上 对 分 娩 孩 子 的 数量 进行 建 模 ,关注 
利用 璧 如 母亲 学 历 .年 龄 以 及 家 庭 收 入 来 分 析 其 变异 情况 | 温 克 尔 曼 (Winkelman， 
1995)]。 在 一 些 家 庭 决 策 的 模型 里 ,孩子 数量 可 作为 解释 变量 出 现 , 该 变量 是 内 生 
的 。 事 故 分 析 研 究 则 通过 航空 公司 在 某 时 期 发 生 的 事故 数量 来 测算 航空 公司 安全 
性 ,并 以 此 建 模 ,试图 确定 它 和 航空 公司 赢利 性 以 及 其 他 航空 公司 财务 状况 测量 值 
的 关系 [罗斯 (Rose，1990)]。 娱 乐 需求 研究 ,通过 对 去 娱乐 场所 出 行 次 数 进行 建 
模 , 试 图 求 出 自然 资源 ,例如 国家 森林 的 价值 [证 尔 穆 和 特 里 维 迪 (Gurmu and 
Trivedi，1996) ]。 健 康 需 求 研究 对 个 人 消费 健康 服务 的 次 数 数据 ,诸如 医生 出 诊 
或 去 年 在 医院 住院 的 天 数 [ 卡 梅 伦 等 人 (Cameron et al. ,1988) ]。 如 果 我 们 想 要 对 
这 种 变量 与 一 些 因素 ,例如 健康 状况 与 健康 保险 之 间 关 系 进行 分 析 , 那 么 计数 回归 
也 是 与 之 有 关 的 。 

20. 2 一 20. 5 节 阅 述 主要 建 模 方法 。20. 2 节 详 述 泊 松 回归 模型 。20. 3 节 给 出 
源 于 著名 RHIE 数据 的 一 个 应 用 。 泊 松 回 归 模 型 经 常 显 得 约束 性 太 强 了 ,而 20.4 
节 曾 述 其 他 一 些 更 普遍 使 用 的 完全 参数 计数 模型 。 本 节 还 阐述 较 少 使 用 的 可 供 选 
择 计 数 模型 ,比如 离散 选择 模型 。20. 5 节 详细 讨论 对 条 件 均 值 与 条 件 方差 进行 建 
模 的 部 分 参数 方法 5.?22(partially parametric approach) 。20. 6 节 提 供 多 变量 计数 模 


[C12 又 称 为 回归 量 。 一 一 译 者 注 
C2] 又 称 为 俩 参数 方法 。 一 一 译 者 注 
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型 以 及 含有 内 生 回 归 元 的 模型 。20.7 节 通 过 利用 RHIE 数据 阐述 各 种 不 同 模型 
随后 ,讨论 一 些 实际 问题 。 处 于 教学 上 的 考虑 ,以 某 种 详细 方式 介绍 横 截 面 数据 的 
回归 模型 。 许 多 其 他 优 于 泊 松 模型 的 一 些 模型 ,因为 章节 空间 所 限 只 好 简略 介绍 。 
对 于 更 完整 研究 ,参见 卡 梅 伦 和 特 里 维 迪 (Cameron and Trivedi，1998) 以 及 文献 


20.2 基本 计数 数据 回归 


在 一 些 情况 下 ,诸如 分 娩 生 孩子 数量 ,计数 是 最 终 关 注 的 变量 。 而 在 另外 一 些 
情况 下 ,比如 医疗 需求 以 及 研究 和 发 展 支 出 的 结果 ,最 终 关注 的 变量 是 连续 的 ,这 
些 经 常 花费 或 收入 以 美元 来 测算 ,但 是 最 合适 的 可 利用 数据 反而 是 计数 数据 。 在 
许多 情况 下 ,样本 集中 在 几 个 小 的 离散 值 (few small discrete values) 上 ,比如 说 0.1 
和 2。 表 20. 1 列 出 几 种 发 表 的 经 济 计量 模型 观测 到 的 零 计 数 比 例 曾 明 这 点 。 这 些 
比例 在 某 些 情况 下 可 高 达 90%。 而 且 , 数 据 都 向 右 偏 斜 (skewed to the right)。 最 
后 ,数据 显示 出 内 生 的 异 方 差 性 (heteroskedastic) ,其 方差 随 均 值 变化 而 增 大 。， 


表 20. 1 部 分 节选 研究 的 零 计数 比例 . 
研究 变量 样本 量 零 比 例 


卡 梅 伦 等 (1989) 就 医 次 数 5 190 0. 798 
波 尔 迈 耶 和 马尔 里 克 (1995) 专家 出 诊 5 096 0. 678 
格 鲁 特 多 斯 特 (1995) 处 方药 5 743 0. 224 
德 布 和 特 里 维 迪 (1997) 住院 天 数 4 406 0. 806 
格 目 和 特 里 维 迪 (1996 ) 娱乐 旅游 659 0. 632 
盖 尔 等 人 (1997) 住院 治疗 30 590 0. 899 


格林 (1997) 重要 损毁 报告 1 319 0. 803 


20. 2. 1 滔 检 右 妇 


泊 松 回归 是 计数 数据 分 析 的 起 点 ,尽管 它 经 党 显得 不 合适 。 在 20. 2.1 一 
20. 2. 3 节 ,我们 阐述 泪 松 回归 模型 ,这 已 在 前 面 5. 2 节 做 了 介绍 ,并 且 通 过 极 大 似 
然 法 加 以 倘 计 ,对 估计 系数 给 出 解释 ,而 且 可 推广 到 截 尾 与 删 失 数据 上 。 在 
20. 2. 3 市 ,我们 还 阅 述 基于 含有 正确 设 定 条 件 均 值 却 可 能 错误 设 定 条 件 方 差 的 泊 
松 分 布 的 伪 MLE。 澡 松 模型 的 局 限 性 , 即 著名 的 等 分 散 性 质 将 在 20. 2.4 节 加 以 
阐述 。 

存在 一 种 限定 条 件 。 在 一 些 情况 下 ,样本 中 零 的 较 高 比例 与 非常 大 的 计数 值 
共存 ,这 产生 了 建 模 上 富 于 挑战 性 的 困难 。 表 20. 2 列 出 对 专利 计数 与 研发 
(RerD) 支 出 之 间 的 关系 进行 研究 的 5 个 信息 来 阐明 这 种 特性 。 可 以 发 现 ,最 大 的 
计数 观测 值 会 如 此 密切 地 与 样本 均值 有 关 。 建 模 上 的 挑战 是 选择 一 种 函数 形式 ， 
该 函数 形式 能 够 适当 地 捕获 到 大 的 均值 与 高 的 零 比 例 。 在 许多 其 他 例子 中 ,比如 
分 娩 生 孩子 数量 ,所 有 数据 本 质 上 被 限制 在 单个 数字 上 ,而且 事件 的 均 信 数 是 非常 
小 的 。 


微观 经 济 计量 学 
这 些 特性 激发 了 对 计数 回归 的 特殊 方法 及 模型 的 应 用 。 目 前 ,存在 两 种 研究 
方法 。 
表 20. 2 最 近 专利 研发 (R&G) 研 究 中 所 用 的 数据 集 概括 


研究 样本 量 均值 标准 差 ” 最 大 专利 数 ”和 零 比 例 

钦 切 拉 (1997) 18] 60. 8 721.6 925 <<0. 19 

克 雷 莲 和 迪 盖 特 (1997b) 698 11.6 naa na 0. 441 

克 雷 革 和 迪 盖 特 (1997a) 451 2. 73 11. 45 na 0. 729 

豪 斯 曼 等 人 (1984) 346 32. 1 66. 36 515 0. 220 

王 等 人 (1998) 70 23. 46 39. 10 173 0. 186 
a na: 不 可 用 。 


第 一 种 方法 是 完全 参数 (fully parametric) 的 方法 , 即 完 全 设 定数 据 的 分 布 , 完 
全 将 y 限制 在 取 非 负 整 数值 上 。 这 种 方法 在 早期 应 用 中 得 到 采用 ,大 部 分 是 在 生 
物 统计 学 里 ,计数 回归 可 以 被 看 成 是 对 文献 中 大 量 关于 独立 同 分 布 的 计数 分 布 进 
行 扩 展 和 推广 。 谊 斯 曼 等 人 (Hausman et al. ，1984) 在 其 有 影响 的 经 济 计 量 研究 
中 也 采用 了 这 种 方法 。 

第 二 种 方法 是 均值 方差 方法 (mean-variance approach) , 即 设 定 条 件 均值 是 非 
负 的 ,并 设 定 条 件 方 差 是 条 件 均 值 的 函数 。 这 种 方法 充分 地 对 非 负 性 与 异 方 差 性 
进行 建 模 ,但 没有 讨论 数据 的 离散 性 。 这 个 方法 在 没有 受 限 且 仅 为 计数 数据 框架 
下 ,由 内 尔 德 和 韦 德 伯 因 (Nelder and Wedderburn，1972) 引 人 ,后 来 导致 了 统计 学 
钻 厂 沁 运 用 的 广义 线性 建 模 方 法 [ 麦 卡 拉 和 内 尔 德 (McCullagh and Nelder， 
1989)]。 在 经 济 计量 学 中 ,该 方法 是 由 古里 耶 克 斯 、 蒙 福特 和 特 罗 格 恩 (Gourir- 
oux，Monfort ，and Trognon，1984a，b) 引 入 的 ,最 好 是 将 它 看 成 对 广义 矩 方法 的 
专门 研究 。 


20.2.2 消 松 MELE 与 QMLE 


第 5 章 已 经 引入 并 讨论 的 泊 松 MLE 与 拟 MLE(QMLE) 可 作为 m 估计 的 一 
个 例子 。 这 里 我 们 给 出 更 完整 的 研究 。 

关于 计数 的 一 个 自然 而 然 的 随机 模型 是 ,关注 事件 发 生 的 泊 松 点 过 程 。 这 药 
含 春 事件 发 生 数 的 泊 松 分 布 (Poisson distribution) 具 有 密度 ,或 更 正式 地 讲 , 概 率 
质量 图 数 为 : 


Pr[Y=y] 一 全 位-， y=0,1,2,.， (20. 1) 
其 中 ,y 表示 强度 或 速率 参数 。 我 们 将 该 分 布 称 为 PLy]。 它 的 前 二 阶 矩 是 . 
ElY|]=y 《20. 2) 
VLY |] 一/ 


这 表明 泊 松 分 布 的 车 名 等 分 散 (equidispersion) (均值 和 方差 相等 ) 性 质 。 
通过 引 人 和 人 观测 值 下 标 i1， 妈 附 于 y 和 A 上 ,iid 框架 可 被 推广 到 回归 情况 。 通 过 
对 均值 参数 yy 与 协 变量 (回归 元 )x 之 间 关 系 进行 参数 化 ,由 泊 松 分 布 可 推导 出 泊 
松 回 归 模 型 (Poisson regression model) 。 标 准 假设 是 使 用 指数 均值 参数 化 ， 
由 一 exp(xG)， i=1,…,N (20. 3) 
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由 假设 知 ,存在 K 个 线性 独立 的 协 变量 ,通常 包括 常 值 。 因 为 V[y |x;] 一 exp(x/8)， 
由 式 (20. 2) 与 式 (20. 3) 知 , 泊 松 回归 具有 内 在 的 异 方差 性 。 

给 定式 (20. 1) 与 式 (20. 3) ,以 及 观测 值 Cy |x ) 是 独立 的 假设 ,最 自然 的 估计 量 
是 极 大 似 然 佑 计量。 其 对 数 似 然 函 数 是 : 


N 
In LB) = > {yx’B — exp(xB)— ln vy,!) (20. 4) 
一] 


泊 松 MLE(Poisson MLE) 记 为 房 ,是 对 应 于 极 大 似 然 的 一 阶 条 件 的 天 个 非 线 性 
方程 ; 


N 
> Cy;— exp(x’B))x; = 0 (20. 5) 
i=1 


如 采 x; 包括 常数 项 ,那么 由 式 (20. 5) 知 , 残 差 y; 一 exp(x{B) 和 为 1。 其 对 数 似 然 函 
数 是 全 局 目的 ;因此 ,要 想 求解 这 些 方程 ,通过 高 斯 一 牛顿 或 牛顿 一 拉夫 森 迭 代 算 
法 可 以 得 到 唯一 的 参数 估计 值 。 

在 经 济 计量 学 文献 中 , 伪 MLE (pseudoML，PML ) 或 准 ML (quasi-ML， 
QML) 信 计 意 指 , 在 对 错误 设 定 密度 下 通过 ML 来 进行 估计 [古里 耶 克 斯 等 人 
(Gourieroux et al. ,1984a) |]。PML 与 QML 术语 经 常 可 以 交换 使 用 。 在 数据 后 成 
过 程 的 假设 下 ,可 获得 该 估计 量 分布 ,而 关于 数据 生成 过 程 的 假设 比 导致 特定 似 然 
质数 的 假设 要 弱 一 些 ; 参 见 5. 7 节 。 在 统计 文献 中 ,QML 常常 意 指 非 线性 广义 最 
小 二 乘法 。 对 于 泊 松 回归 来 说 ,QML 在 后 者 的 意义 下 等 价 于 标准 极 大 似 然 法 。 

由 式 (20. 5) , 泊 松 PML 估计 量 读 具有 一 阶 条 件 忆 > (一 exp(CxG ))x 一 0。 
正如 已 经 注意 到 的 , 当 ELy xj=exp(xG) 时 ,左边 之 和 等 于 期 望 0。 因 此 ,在 对 
条 件 均 值 正确 设 定 的 较 弱 假设 下 , 泊 松 PML 是 一 致 的 ;也 就 是 说 ,数据 不 需要 服从 
泊 松 分 布 。 利 用 5. 2. 3 节 给 出 的 结果 ,方差 矩阵 就 是 三 明治 形式 的 ,满足 : 


Vpw[ Br | = ( 2 pxiX ) ( wxix: ) ( 人 > ) (20. 6) 
并 县 ;Wi Vy; | xi 表示 Yi 的 条 件 方差 。 

由 标准 的 ML 理论 ,如 果 较 强 的 假设 使 得 泊 松 回归 在 参数 形式 上 得 以 正确 设 
定 , 所 以 w; 二 yi, 那么 估计 量 记 关于 6B 是 一 致 的 ,而 且 是 渐 近 正 态 的 ,具有 样本 协 
方差 矩阵 : 

V| [| 一 ( 2 XiX ) (20. 7 ) 


在 此 情况 下 ,y; 具有 指数 形式 (20. 3) 。 
泪 松 ML 估计 量 与 PML 估计 量 是 一 样 的 , 却 具 有 不 同方 差 。20. 5. 1 节 将 阐 
述 对 更 稳健 估计 (20. 6) 的 实证 例子 。 


20.2. 3 解释 右 好 系数 


对 于 满足 EL y|xj] 二 x 8 的 线性 模型 来 说 ,系数 9 已 经 被 解释 成 为 回归 元 变化 
一 个 单位 对 条 件 均 值 的 效应 。 对 于 非 线 性 模型 而 言 ,需要 对 此 加 以 修改 。 参 见 
5. 2. 4 节 给 出 的 一 般 性 讨论 。 对 具有 指数 条 件 均值 的 任何 模型 来 说 ,对 其 微分 得 到 : 


微观 经 济 计量 学 


0 


Ey) 上 EYE 一 exp(x 8) (20. 8) 


其 中 天 最 x 表示 第 个 回 上 元 。 例 如 ,着 镶 一 0.25 且 exp(% 忆 二 3, 第 ;个 加 上 
元 变化 一 个 单位 时 , 则 引起 y 的 期 望 值 增加 0. 75 单位 。 这 种 偏 响 应 依赖 于 
exp(%[B), 它 对 于 不 同 的 个 体 而 言 预 期 是 变化 的 。 容 易 理解 ,8 测算 由 x; 变化 一 
个 单位 时 引起 E [y|zj] 的 相对 变化 。 如 果 zi 在 对 数 标 度 上 进行 测算 ,那么 8 就 是 
弹性 的 。 

为 了 报告 单个 响应 值 ,一 个 好 的 备 选 者 是 平均 响应 估计 值 ,N7 2;oELy lx ]/ 
9zi 二 B;X NT IDiexp(CxG) 。 对 于 含有 截 距 的 泊 松 回归 模型 来 说 ,可 以 证 明 ,这 可 
入 化 成 Biy o 

式 (20. 8) 的 男 一 个 结果 就 是 ,比如 说 ,如 果 pB 是 Bi 的 2 倍 , 那 么 第 j 个 回归 元 
变化 一 个 单位 而 引起 的 效应 ,就 是 第 个 回归 元 变化 一 个 单位 而 引起 效应 的 2 倍 。 


20. 2. 4 过度 分 肖 


就 计数 数据 而 言 , 泊 松 回 归 模 型 通常 约束 性 太 强 ,这 导致 了 由 20. 3 节 与 20. 4 
节 所 前 述 的 一 些 其 他 可 供 选 择 的 模型 。 基 本 问题 是 ,其 分 布 要 用 纯 量 单 参数 (7) 来 
参数 化 ,所 以 y 的 所 有 甜 都 是 yy 的 图 数 。 与 之 相 比 , 正 态 分 布 具 有 位 置 (wx) 与 标 度 
(a) 各 自分 开 的 参数 。 由 于 同样 的 原因 ,对 计数 数据 而 言 , 单 参数 的 指数 约束 性 太 
强 , 而 更 一 般 的 两 个 参数 分 布 , 诸 如 威 布尔 分 布 就 表现 得 优越 一 些 。 注 意 到 ,对 于 
二 值 数据 来 说 ,这 种 复杂 性 不 会 产生 。 于 是 ,如 果 成 功 概 率 是 p, 那 么 失败 概率 必 
是 1 一 p, 显 然 分 布 是 一 个 参数 的 贝 努 里 分 布 。 不 过 ,对 于 二 值 数 据 而 言 , 问 题 是 如 
何 用 回归 元 去 参数 化 p。 

表现 这 种 约束 性 的 一 种 方式 是 ,在 许多 应 用 中 , 泊 松 密度 预测 零 计数 的 概率 相 
当 小 于 在 样本 中 所 实际 观测 到 的 。 这 称 为 超额 零 (excess zeros) 问题 ,因为 数据 中 
的 零 比 泊 松 预测 要 更 多 些 。 

泊 柏 模型 的 第 二 个 明显 的 不 足 之 处 是 ,对 计数 数据 而 言 ,其 方差 通常 大 于 均 
值 ,此 特性 称 为 过 度 分 散 (overdispersion)。 相 反 , 泊 松 模 型 蕴含 ,其 方差 与 均值 是 
相等 的 [参见 式 (20. 2)] ,这 个 性 质 称 为 等 分 散 性 。 

从 性 质 上 看 ,过 度 分 散 具 有 类 似 于 线性 回归 模型 中 同方 差 性 假设 失败 的 结果 。 
倘若 条 件 均 值得 到 正确 设 定 , 即 式 (20. 3) 成 立 , 泊 松 MLE 还 是 一 致 的 。 由 于 如 果 
ELy|zj=exp(xG) ,那么 式 (20.5) 左 边 将 具有 零 期 望 , 所 以 这 没有 对 式 (20. 5) 的 
一 阶 条 件 进 行 检 验 。 当 设 定 密 度 处 于 LEF 之 中 时 ,这 种 一 致 性 更 一 般 地 用 于 拟 
MI 尼 。 不 仅 油 松 分布 , 而 且 正 态 分 布 都 是 前 面 5. 7. 3 节 曾 讨论 的 LEF 的 成 员 。 不 
过 ,重要 的 是 控制 过 度 分 散 。 首 先 ,在 更 复杂 背景 下 ,诸如 含有 截 尾 与 删 失 情况 ,过 
度 分 散会 导致 更 基本 的 非 一 致 性 问题 。 其 次 ,甚至 在 最 简单 背景 下 , 较 大 的 过 度 分 
散会 导致 极度 缩小 标准 误差 旦 极 大 夸张 上 稳健 方差 佑 计量 。 再 次 ,如 果 人 们 想 要 
估计 事件 数 的 概率 而 不 仅仅 是 条 件 均 值 , 这 些 都 依赖 于 额外 的 数据 生成 过 程 参 数 。 

过 度 分 散 可 作为 更 基本 的 错误 设 定 存 在 的 信和 号 ,尤其 是 在 涉及 截 尾 与 删 失 的 
背景 下 ,在 估计 时 将 它们 忽略 挥 。 在 这 种 情况 下 ,条件 均 值 被 错误 设 定 ,并 且 过 度 
分 散 联 立 存 在 ,这 将 导致 MLE 的 无 效 性 以 及 非 一 致 性 。 


< 计数 数据 模型 


因此 ,在 实施 诅 松 回归 之 后 ,对 过 度 分 散 进行 统计 检验 是 人 们 非常 期 望 的 。 大 
部 分 含有 过 度 分 散 的 计数 模型 ,把 过 度 分 散 设 定 成 为 如 下 形式 
VLyi|x |=p; Tag ly) (20. 9) 
其 中 ,a 表示 未 知 参数 ,而 g(*) 表 示 已 知 函 数 , 最 普遍 的 是 g(y) 一 yi 或 RI 
假定 既 在 零 假 设 下 又 在 备 择 假设 下 ,均值 都 被 正确 设 定 。 例 如 exp (Xi ) ,而 在 零 
假设 下 a 二 0， 因此 ,Vl y; [x; =p。 大 于 Ho: a 一 0 与 万: a 了 关 0 或 Hi: a 之 0 的 
一 种 简单 过 度 分 散 检 验 统 计量 (overdispersion test statistic) ,建立 拟 合 值 一 
expGx DG) ,并 实施 辅助 OLS 回归 (不 含 常 值 的 ) 
CA 
A A 
其 中 ,u; 表示 误差 项 ,能 通过 估计 泊 松 模型 得 到 计算 出 来 。 在 没有 过 度 分 散 的 零 假 
设 下 [ 卡 梅 伦 和 特 里 维 迪 (Cameron and Trivedi，1990)], 即 使 这 里 可 使 用 生成 的 
回归 元 ,所 报告 的 关于 a 的 上 统计 量 是 渐 近 正 态 的 。 这 种 检验 还 可 用 于 分 散 不 足 
(underdispersion) , 即 a<0, 在 此 情况 下 ,条 件 方差 小 于 条 件 均 值 。 还 可 参见 证 尔 
穆 和 特 里 维 过 (Gurmu and Trivedi，1992) 。 


(20. 10) 


20.3 计数 例子 :就 医 次 数 


为 了 阐明 理论 ,我们 使 用 源 于 RAND 健康 保险 实验 的 一 些 数据 ,这 些 数据 以 
前 曾 被 德 布 和 特 里 维 迪 (Deb and Trivedi,，2002) 使 用 。 和 这 里 所 给 的 阐述 相 比 ,他 
_ 们 对 模型 进行 了 更 完整 的 估计 ,并 完成 对 数据 较为 深刻 的 分 析 , 由 RAND 公司 领 
导 的 这 个 实验 是 从 1974 一 1982 年 ,这 在 医疗 保健 研究 (medical care research) 中 是 
实施 最 长 且 最 大 的 控制 性 社会 实验 。 实 验 的 主要 目的 是 评估 病人 对 健康 服务 使 用 
如 何 受到 各 类 随机 安排 健康 保险 的 影响 , 既 包 括 一 次 一 付 医疗 费 C11(fee-for 
service) , 又 包括 健康 维护 组 织 (CHMGO) 。 在 该 实验 中 ,数据 是 从 2 823 个 家 庭 中 的 
8 000 个 人 会 者 那里 搜集 的 ,它们 来 自 全 国 的 6 个 城市 。 每 一 个 家 庭 要 在 3 年 或 4 
年 的 14 种 各 种 不 同 健康 保险 计划 中 注册 一 种 。 计 划 范 围 从 自由 照料 到 95% 共 同 
保险 低 于 最 高 美元 开支 (maximum dollar expenditure，MDE) ,同时 还 包括 被 预付 
小 组 实践 中 的 安排 。 

重要 的 核心 思想 是 ,由 于 保险 计划 是 随机 安排 的 ,并 不 可 以 由 参与 者 自 几 地 选 
择 , 所 以 我 们 没有 面 对 内 生 处 理 效 应 问题 ,这 是 正在 研究 关注 的 中 心 因 果 参 数 ( 原 
因 参 数 )。 

数据 是 从 人 会 者 使 用 医疗 保健 服务 以 及 对 于 或 3 年 或 5 年 人 会 项 目的 随机 安 
排 的 健康 状态 所 搜集 而 来 的 。 有 关 该 数据 的 更 多 详细 内 容 ,参见 曼 宁 等 人 (Man- 
ning et al. ，1987) . 纽 豪 斯 等 人 (Newhouse et al. ，1993), 以 及 德 布 和 特 里 维 迪 
(Deb and Trivedi，2002) 。 在 该 研究 中 ,所 使 用 的 样本 是 由 仅仅 参与 一 次 一 付 医疗 
费 的 个 体 组 成 。 


13 又 称 为 按 服务 项 目 收 费 。 一 一 译 者 注 
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数据 文件 是 由 利用 (效用 ) 、. 开 文 .人 口 特征 、 健 康 状 况 以 及 保险 状态 变量 组 成 
的 。 开 文 数 据 已 在 16. 6 市 中 进行 了 分 析 。 此 样本 共 保 率 (coinsurance rate) 假 定 四 
种 不 同 的 数值 。 然 而 , 苯 从 RAND 研究 ,我 们 把 它 处 理 成 为 一 个 连续 变量 。 最 终 
梓 本 由 20 186 个 观测 值 组 成 ,每 一 个 观测 值 代 表 给 定年 份 中 一 个 实验 题目 的 数据 。 
为 了 简单 起 见 ,这 里 忽略 数据 中 出 现 的 集群 .11(clustering) ,参见 24. 5 节 。 

在 目前 阐述 中 ,所 利用 的 分 析 测 量 就 是 与 医生 联系 次 数 (MDU)。 以 百分比 形 
式 给 出 的 MDU 的 相对 频率 分 布 已 由 表 20. 3 给 出 。MDE 表示 最 大 美元 开支 
(maximum dollar expenditure) ,实际 中 有 一 个 医疗 开支 债务 限制 ,在 此 限制 之 上 ， 
参与 者 将 不 负担 成 本 分 挫 。 观 察 发 现 , 大 致 312 的 观测 值 是 0。 较 长 的 右 尾 与 方 
差 非常 大 于 均值 ,这 表明 计数 是 (无 条 件 ) 过 度 分 散 。 

表 20.3 就 医 次 数 :频率 分 布 


接触 0 1 2 3 4 5 6 7 8 9 10 
相对 频数 31.2 18.9 13.8 9.3 6.7 4.8 3.4 2.6 2.0 14 1.0 
接触 11 12 13 14 15 16 ‘2] Max 

相对 频数 0.9 0.6 0.5 04 0.3 0.3 1.0 77 


这 里 讨论 的 目的 是 ,我 们 考察 通过 泊 松 ML 与 沼 松 PML 进行 回归 估计 。 其 他 
的 设 定 则 稍 后 考虑 。 就 一 切 情况 而 论 , 所 包括 的 协 变 量 是 表 20. 4 中 的 那些 。 
表 20. 4 就医 次 数 :变量 说 明 


变量 还 义 均值 标准 差 
MOU 门诊 病人 访问 MD 人 数 2. 861 4. 505 
LC In( 共 保险 十 1) , 0 志 共 保险 志 100 1.710 1. 962 
IDP 若 个 人 可 减免 的 ， 则 取 1， 否 则 取 0 0. 220 0. 414 
LPI In(max(1, 年 度 参 与 激励 支付 )) 4. 709 2. 697 
FMDE 当 IDP 王 1 时 , 为 0 3. 153 3. 641 
InCmax(1,MDE/(0.01 共 保 )))， 其 他 
LINC In( 和 家庭 收入 ) 8. 708 1. 228 
LFAM In (家庭 人 口 数 ) 1. 248 0. 539 
AGE 年 龄 25. 718 16. 768 
FEMALE 当 此 人 为 妇女 时 , 取 1 0.517 0. 500 
CHILD 当年 龄 小 于 18 岁 时 , 取 1 0. 402 0. 490 
FEMCHILD FEMCHILD * CHILD 0. 194 0. 395 
BLACK 当 户 主 种 族 是 黑人 0. 182 0. 383 
EDUCDEC 户主 受 教育 年 数 11. 967 2. 806 
PHYSLIM 当 此 人 受 体质 限制 , 取 1 0. 124 0. 322 
NDISESE 几 种 慢性 病 11. 244 6. 742 
HLTHG 若 此 人 自 测 健康 状况 良好 , 取 1 0. 362 0. 481 
HILTHF 若 此 人 自 测 健康 状况 一 般 , 取 1 0. 077 0. 267 
HLTHP 若 此 人 自 测 健康 状况 不 好 , 取 1 0. 015 0. 121 


[1] 又 称 为 聚集 ,详细 内 容 参 见 第 24 章 。 一 一 译 者 注 


省 略 分 类 是 旧 测 健康 状况 极 好 
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表 20. 5 中 给 出 对 有 意思 的 系数 及 其 1 比率 的 选取 ,以 及 对 数 似 然 与 信息 准 
则 。 为 了 节省 空间 ,我 们 没有 将 全 部 内 容 输出 重 述 。 与 保险 变量 (LC、JDP、LPI 以 
及 FMDE) 相 联系 的 变量 系数 显然 是 人 们 关注 的 ,因为 它们 反映 出 对 价格 的 敏感 
性 。 此 外 ,五 个 健康 状况 变量 的 系数 (PHYSLIM.、NDISEASE、HLTHG.、HLTHF 
以 及 HLTHP) 也 是 关注 的 内 容 。 
表 20.5 就 医 次 数 :计数 模型 估计 


泪 松 PPML NB2-PML 

模型 系数 t 比率 t 比率 系数 t 比率 
LC 一 0.042 7 一 7. 030 一 2. 835 一 0.050 4 一 3. 228 
IDP 一 0. 161 3 一 13. 881 一 5.773 -一 0. 147 5 一 4. 889 
LPI 0.0128 6. 999 2. 912 0.0158 3. 574 
FMDE 一 0.020 6 一 5. 803 一 2. 319 一 0.021 3 一 2. 35] 
PHYSLIM 0. 268 4 21. 711 8. 240 0. 275 1 8. 068 
NDISEASE 0. 023 1 38. 124 13. 487 0. 025 9 15. 324 
HLTHG 0. 039 4 4. 109 1. 699 0. 006 5 0. 275 
HLTHF 0. 253 1 15. 613 5, 894 0. 236 8 5. 425 
HI.THP 0. 521 6 19. 150 6. 966 0. 425 6 6. 205 
a 一 一 一 1. 182 2 8. 926 
—lnl 60087 42777 


考察 共 保 率 的 系数 LC, 这 里 用 对 数 标 度 进行 测算 。 该 变量 是 主要 关注 的 内 
容 , 因 为 它 提供 了 有 关 价 格 效 应 的 信息 。 共 保 率 越 高 ,由 病人 分 挫 的 成 本 就 越 大 ， 
从 而 平均 就 诊 次 数 就 越 少 。 源 自 汝 松 回归 所 估计 的 系数 (参见 表 20.5 第 1 列 ) 如 
同 由 标准 理论 所 预测 的 ,是 负 的 (一 0. 042), 其 1 比率 为 2.835, 表 明 价 格 效 应 显著 
为 负 的 。 就 医 次 数 对 LC 的 弹性 是 一 0. 042。 不 过 ,由 于 共 保 率 仅仅 取 几 个 少数 值 
日 没 有 连续 变化 ,所 以 在 解释 这 个 值 时 应 该 运用 保健 。 受 限于 这 个 限定 条 件 , 可 将 
系数 解释 成 为 弹性 。 类 似 地 ,关于 收入 对 数 (LINC) 是 0. 174, 表 明 收 入 增加 会 引起 
平均 就 诊 次 数 提高 。 

泊 松 回归 拟 合 数据 程度 果真 会 好 吗 ? 一 种 和 傈 单 判 断 此 问题 的 方法 是 ,对 于 各 
种 不 同 的 就 医 次 数 来 说 , 比较 真实 的 频数 与 拟 合 的 频数 。 表 20. 6 提供 了 直到 9 次 
出 诊 的 比较 情况 , 而 省 咯 总 体 解 释 小 于 10%% 出 诊 时 的 较 大 频数 。 为 了 计算 拟 合 值 
Pr| y， [xB], 对 于 yi 二 0,1,…,9, 将 J 代 人 式 (20. ] ) ,然后 对 观测 值 取 平均 。 可 以 
发 现 , 泊 松 回归 严重 低估 了 零 次 出 诊 比例 ,而 过 吉 估 计 了 出 诊 次 数 直 到 ?7 次 的 正比 
例 。 因 而 ,我们 得 出 绪论 , 泊 松 回归 是 有 缺陷 的 。 可 以 证 明 , 出 现 该 种 拟 合 不 足 模 
式 与 忽略 数据 的 过 度 分 散 有 关 [ 卡 梅 化 和 特 里 维 迪 (Cameron and Trivedi，1998 ,第 
4 章 )]。 


表 20.6 就 医 次 数 : 观 测 到 的 频率 与 拟 合 频率 
接触 频数 0 1 2 3 4 5 6 7 8 9 


相对 频数 31.2 18.9 13.8 9. 3 6.7 4.8 3. 4 2. 6 2. 0 1.4 
泊 松 拟 合 10.6 19.2 20.9 17.6 12.6 7.99 469 2.64 1.46 0.8 
NB2 拟 合 30.9 19.6 13.6 9.76 6.97 5.07 3.70 2.72 2.0 1. 47 
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在 忽略 过 度 分 散 情 况 下 ,可 以 预见 , 泊 松 MLE 的 上 比率 将 会 夸大 。 比 较 表 
20.5 第 3 列 (PPML) 的 稳健 t 比率 ,可 以 证 明 , 实际 上 确 是 如 此 。 例 如 ,稳健 性 引 
起 LC 的 :比率 从 一 7.03 下 降 到 一 2.83。 表 20. 5 与 表 20. 6 包括 了 将 要 在 20. 7 节 
讨论 的 NB2 模型 的 一 些 结果 。 对 于 这 些 数据 ,NB2 模型 是 一 个 好 的 参数 模型 。 


20. 4 参数 计数 回归 模型 


当 松 回归 经 党 表现 出 约束 性 太 强 。 本 节 , 我 们 将 描述 一 些 更 灵活 的 可 供 选 择 
的 其 他 参数 形式 。 

第 一 ,计数 数据 中 的 过 度 分 散 归 因 于 不 可 观测 异 质 性 。 在 这 种 情况 下 ,计数 可 
铀 看 成 由 肖 松 过 程 生成 (在 此 情况 下 ,事件 是 序列 独立 的 ) ,可 是 研究 者 没 能 正确 设 
定 此 过 程 的 速率 参数 。 相 反 , 速 率 参 数 本 身 就 是 一 个 随机 变量 。20. 4. 1 节 与 
20. 4. 2 让 将 前 述 的 混合 方法 导致 了 广泛 运用 负 二 项 式 模 型 。 

第 二 ,过 度 分 散 以 及 在 一 些 情况 下 产生 的 分 散 不 足 , 是 因为 生成 第 一 个 事件 的 
过 程 不 同 于 决定 稍 后 事件 的 过 程 。 例 如 ,最 初 医生 出 诊 仅 仅 是 病人 选择 ,而 以 后 出 
诊 则 是 由 医生 来 决定 。 这 就 前 述 20. 4. 5 节 所 述 的 修正 计数 模型 。 

第 三 ,计数 数据 中 的 过 度 分 散 可 归 因 于 对 事件 独立 性 假设 的 失败 , 它 隐 含 于 泊 
松 过 程 之 中 。 例 如 ,人 们 能 够 假定 相依 性 ,因而 一 名 医生 出 诊 会 使 医生 后 来 更 可 能 
出 诊 。( 这 种 方法 没有 广泛 用 于 计数 数据 分 析 之 中 。 在 持续 期 限 分 析 里 ,这 称 为 真 
实 状 态 相 依 性 。) 对 不 可 观测 异 质 性 或 者 相依 性 的 特殊 假设 再 次 导致 儿 二 项 式 情 
况 ; 人 参见 温 克 尔 曼 (Winkelmann，1995)。20. 4. 6 节 将 进一步 阐述 对 Pr[ y= 二 j| vy 宇 
7 一 了 jj 建 模 的 一 种 离散 选择 模型 。 

第 四 ,人 们 参考 对 单 变量 iid 计数 分 布 的 扩展 与 丰富 文献 ,譬如 对 数 序列 与 超 
几何 分 布 [ 约 坦 逊 、 科 菩 和 肯 普 (Johnson，Kotz and Kemp，1992) ]。 通 过 设置 一 个 
或 更 多 个 分 布 参数 成 为 回归 元 的 设 定 函数 来 发 展 新 的 回归 模型 。 这 里 将 不 表述 这 
类 模型 。 此 类 方法 比 前 三 种 方法 更 缺少 动机 ,而 且 得 到 的 模型 不 是 非常 好 。 

尽管 强调 过 度 分 散 , 但 也 会 产生 分 散 不 足 。 例 如 ,在 计数 结果 可 能 是 0 或 1 的 
样本 中 ,具有 非常 小 的 2s 数 ,因此 接近 于 二 项 式 模型 ,这 将 表现 出 分 散 不 足 。 卡 区 
分 布 族 (Katz family of distributions) 的 一 些 成 员 , 或 者 建立 在 级 数 展开 方法 之 上 
的 其 他 分 布 ,诸如 市 卡 梅 伦 和 约翰 进 (CCameron and Johansson，1997) 所 发 展 起 来 
的 那些 分 布 ,都 可 以 使 用 ; 可 参见 卡 梅 伦 和 特 里 维 过 (Cameron and Trivedi，1998， 
第 12 章 )。 


20. 4.1 人 负 二 项 式 模 型 


负 二 项 式 模 型 能 以 许多 不 同方 式 来 获得 , 它 是 连续 混合 模型 的 一 个 特例 。 下 
面 利 用 混合 分 布 的 推导 是 最 古老 且 具有 广泛 影响 力 的 。 

假定 随机 计数 > 的 分 布 是 泊 松 分 布 , 以 参数 4 为 条 件 , 因此 , f(y14) 王 
exp( 一 A)A*/y!。 现 在 假定 参数 4 是 随机 的 ,而 不 是 回归 x 的 完全 确定 性 函数 。 特 
别 地 , 设 和 A 二 uv， 其 中 ,表示 x 的 确定 性 函数 ,例如 exp(xB8), 而 vy 这 0 是 iid 的 ,其 
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密度 为 gs(vla)。 这 是 不 可 观测 异 质 性 的 一 个 例子 ,因为 各 种 不 同 观 测 值 可 具有 不 
同 的 A( 异 质 性 ), 这 种 差异 部 分 归 因 于 随机 (不 可 观测 的 ) 成 分 v。 注 意 到 , 当 
Eiyj 二 1 时 ,ELAljj 二 yx, 因此 对 斜率 参数 的 解释 如 同 泊 松 模型 的 一 样 。 

> 的 边际 密度 不 是 以 随机 参数 v 为 条 件 的 ,而 是 以 确定 性 参数 jy 与 a 为 条 件 
的 , 它 可 通过 积分 去 掉 v 得 到 。 从 而 .得 到 ， 


h(yly,a) = |fOylp Waele (20. 11) 

其 中 ,gly|a) 称 为 混合 分 布 , 而 a 表示 该 混合 分 布 的 未 知 参 数 。 此 积分 定义 出 一 种 
“平均 分布。 对 于 f(*) 与 gC(*) 的 某 种 特殊 来 说 ,积分 将 具有 显 性 解 或 闭 形 式 解 。 

当 f(y| 儿 表示 泊 松 密度 ,并 且 gy)= 二 1e 65/T(6),yv,6 守 0 表示 佩 玛 密度 

时 ,满足 ELyj] 二 1 且 Vlyvj 二 1/6, 就 得 到 如 下 作为 混合 密度 的 负 二 项 式 (negative 


binomial). 
fa yy 6-1,-w Qs 
h[ yl ,0] = | 人 sy y (20. 12) 
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| 2 Cp ov yt dy 
(} 


0 


La 十 >y) (ee) (一 一 ) 
FPCa Tly++1)\a 十 HA AL 十 ar 
其 中 ,=17/6, 表示 伽 玛 积分 , 即 规定 为 整数 和 目 变量 的 阶乘 ,而 第 4 行 则 经 过 某 
种 代数 运算 以 及 利用 了 鸽 玛 因数 的 定义 之 后 而 得 到 。 负 二 项 式 的 一 些 特殊 情况 包 
括 , 注 松 分 布 (a 王 0)、 从 5 到 a 的 重新 参数 化 优势 以 及 几何 分 布 (a 二 1)。 

如 同 许多 混合 分 布 情况 一 样 , 负 二 项 式 还 有 独立 推导 ;参见 卡 梅 伦 和 特 里 维 迪 
(Cameron and Trivedi，1998, 第 4 昔 )。 它 可 通过 许多 不 同方 式 得 到 ,而 且 人们 并 
不 总 是 将 它 看 成 一 种 混合 分 布 。 

对 作为 泪 松 分 玛 混 合 (Poisson-gamma mixture) 的 人 负 二 项 式 的 代数 推导 ,能 给 
出 贝 叶 斯 解释 。 给 定 a 与 13. 2. 4 诈 关 于 指数 族 的 共 罗 先 验 结果 ,jy 的 先 验 分 布 是 
偶 玛 分 布 。 可 以 预计 ,其 后 验 分 布 具有 闭 形 式 。 因 此 ,在 关于 a 的 非 确 定 先 验 ( 分 
布 ) 的 进一步 假设 下 ,MLE 与 贝 叶 斯 后 验 均值 是 一 致 的 。 

负 二 项 分 布 的 前 两 阶 矩 是 . 

El ylu,aj= (20. 13) 
Viy usa =p( lan) 


因为 0 且 二 0, 故 方差 大 于 均值 。 实 际 上 ,很 容易 证 明 , 若 y14 是 泊 松 分 布 , 且 
不 可 观测 蜡 质 性 具有 乘法 形式 4 二 yw, 其 中 ,ELyj] 二 1, 则 总 会 产生 过 度 分 散 。 还 要 
注意 到 ,该 过 度 分 散 具 有 20. 2. 4 节 所 讨论 的 式 (20. 9) 形 式 。 

负 二 项 式 的 两 个 标准 变形 经 常用 于 回归 应 用 中 。 这 两 个 变形 均 设 定 == 
exp(%B)。 最 普通 的 变形 是 , 设 a 是 待 估 参 数 , 源 于 式 (20. 13) 的 条 件 方差 函数 
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x 十 are 关 于 均值 是 二 次 的 。 

负 二 项 式 模型 的 其 他 变形 具有 线性 方差 唔 数 ,V[L yjj,aj 二 (十 7Y)4, 即 通过 用 
7 人 /代替 式 (20. 12) 的 a 得 到 。 男 一 方面 ,通过 ML 可 直接 进行 估计。 有 时 ,这 个 
变形 称 为 负 二 项 式 1(NB1) ,使 之 与 含有 二 次 方差 图 数 的 变形 即 称 为 负 二 项 式 2 
(NB2) 的 模型 形成 对 比 [ 卡 梅 伦 和 特 里 维 巡 (Cameron and Trivedi，1998) |。 很 容 
易 从 式 (20. 12) 获 得 对 数 似 然 。 模 型 的 这 两 种 变形 都 很 容易 地 通过 ML 得 到 估计 ， 
例如 ,其 详细 推导 由 卡 梅 化 和 特 里 维 迪 (Cameron and Trivedi，1998) 给 出 。 在 这 
两 种 变形 中 ,由 于 ELy|xj]=exp(CxG), 所 以 其 系数 具有 相同 解释 。 如 同 20. 7 节 的 
应 用 一 样 ,NB2 变形 是 最 经 常 运用 的 。 

在 应 用 研究 中 ,发 现 NB2 模型 非常 有 用 。 它 为 更 好 拟 合计 数 数据 的 许多 类 型 
提供 了 必要 的 灵活 性 。 之 所 以 这 样 ,部 分 因为 二 次 方差 设 定 在 许多 实证 情况 下 是 
一 种 好 的 近似 。NB2 经 常 提供 好 的 拟 合 ,该 事实 的 一 个 不 六 结果 是 , 倘 奇 泊 松 假设 
失效 ,一旦 忽视 其 他 可 能 性 , 则 存在 越过 可 供 选 择 的 负 二 项 式 。 应 避免 这 种 机 械 式 
方法 ,因为 泊 松 模型 表现 不 好 ,其 原因 在 于 条 件 均值 清 数 没有 设 定好 ,可 以 发 现 , 运 
用 负 二 项 式 模型 保持 相同 条 件 均值 。 

与 泊 松 模型 相 比 , 负 二 项 式 模型 对 于 分 布 错误 设 定 来 说 更 缺少 稳健 性 。 即 使 
条 件 均值 得 到 正确 设 定 , 负 二 项 式 模型 的 MLE 也 是 非 一 致 的 , 除 NB2 模型 的 特殊 
情况 之 外 ,关于 G( 但 不 是 wo) 的 MLE 还 是 一 致 的 。 

就 计数 的 混合 模型 而 言 ,由 于 泊 松 过 程 是 关于 计数 的 一 个 正常 模型 ,所 以 对 于 
式 (20. 12) 中 的 初始 密度 来 说 , 泊 松 密度 就 是 一 个 目 然 选 择 。 对 于 式 (20. 12) 的 混 
合 分 布 g(C) 来 说 ,选择 伽 玛 分 布 就 更 具有 任意 性 。 对 它 的 使 用 会 产生 18. 2 一 18. 4 
节 所 讨论 的 一 些 问 题 。 其 他 的 可 能 选择 包括 对 数 正 态 分 布 与 逆 高 斯 分 布 。 参 见 威 
尔 莫 特 (Willmot，1987) 以 及 郭 和 特 里 维 迪 (Guo and Trivedi，2002) 。 在 这 些 情 况 
下 ,边缘 分 布 不 能 用 闭 形 式 表 述 , 因 为 它 是 伽 玛 分 布 ,而 伽 玛 是 油 松 的 共 斩 。 当 然 ， 
这 不 意味 着 ,所 得 到 的 模型 不 能 由 极 大 似 然 法 估计 。 它 意味 着 ,人 们 必须 要 使 用 数 
值 方法 求 积 分 或 模拟 极 大 似 然 法 估计 模型 。 对 当前 可 利用 的 计算 能 力 来 说 ,这 些 
方法 总 体 上 是 可 行 的 。 假 如 人 们 准备 用 第 12 章 讨论 的 基于 模拟 的 估计 方法 , 则 利 
用 各 种 不 同类 型 的 混合 泊 松 模型 的 范围 将 变 得 非常 广 沁 。 


20. 4. 2 模拟 极 大 似 然 法 


为 了 方便 理论 阐述 ,我 们 现在 阐明 如 何 通 过 极 大 模拟 似 然 法 (maximum simu- 
lated likelihood) 估 计 NB2 模型 。 读 者 应 该 认识 到 ,由 于 我 们 已 拥有 那个 模型 的 解 
析 表 达 式 ,所 以 在 实际 应 用 中 这 是 多 余 的 。 假 定 没 有 模型 解析 式 , 就 只 好 通过 模拟 
求解 估计 。 

注意 到 , 式 (20. 12) 的 h(yla,p) 能 外 

1 §» -it 站 )” 


来 帝 近 ,其 中 ,vy(s 二 1,*…,S) 表示 从 分 布 ,0 得 到 俯 随 机 采样 ,而 S 表示 所 用 模 
拟 复制 次 数 。 可 直接 从 均值 为 1 目 方 差 为 a 的 伽 玛 分 布 进行 采样 。 人 们 从 均匀 分 
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MM 


布 采样 ,然后 对 它 运 用 一 个 变换 。 设 uw, 表示 均匀 随机 变量 ,并 设 v= 二 一 In w/a, 然 


p AInu, /a) (ul—1n us /a))» 
| 


flyly,yasu) = 
fl\y 1 y 


于 是 ,MSL 佑 计量 bus 极 大 化 : 
N ] 5 
Qn (0) 一 Din( 2 Fy zi, ,0) ) (20. 14) 
一 ] 5 一 ] 


其 中 二 exp(x [8B), 而 0 一 (a, 6B)， 

当然 ,这 种 方法 是 密集 计算 ,其 他 情况 就 简单 易 行 。 对 MSL 性 质 的 更 多 讨论 ， 
将 由 12.4 节 给 出 。 这 里 ,我 们 提醒 读者 , 当 S,N 一 oo0,S /VN->0 时 ,Oma 与 9m 
是 痢 近 等 价 的 。 


20. 4. 3 有 了 良 泥 人 模型 


在 上 面 一 节 里 ,由 于 混合 随机 变量 v 被 假定 具有 连续 分 布 ,所 以 混合 模型 是 连 
续 混 合 模 型 。 相 反 ,一 种 可 供 选 择 的 方法 是 使 用 不 可 观测 异 质 性 的 离散 表示 ,这 就 
产生 一 类 被 称 为 有 限 混合 (finite mixture) 的 模型 ;参见 18. 5 节 。 该 类 模型 是 潜 类 
型 模型 (latent class models) 的 特殊 子 类 。 这 种 模型 的 一 些 变形 或 特殊 情况 ,还 被 统 
称 为 离散 因素 模型 (discrete factor models)， 

在 经 验 猎 究 中 ,对 连续 混合 的 一 种 可 供 选择 的 更 广泛 运用 是 下 一 节 将 讨论 的 
修正 计数 模型 类 型 。 不 过 ,更 自然 的 是 继承 前 面 一 节 , 对 有 限 混合 讨论 。 进 一 步 
地 ,可 将 修正 计数 模型 的 子 类 看 成 是 有 限 混 合 的 一 种 特殊 情况 。 

我 们 假定 , y 的 密度 是 m 个 不 同 密 度 的 线性 组 合 , 其 中 ,第 7 个 密度 是 
方 (y|0,;) ;J 二 1,2,…,m。 因 而 ,m 个 成 分 有 限 混 合 是 : 


flyl0,7) = Dfi(y|0), 0 1, Sn 一 1 (20.15) 
7 一 上 i 7 二 1 


为 了 一 般 性 ,在 给 定 公式 中 ,假定 混合 成 分 在 其 参数 方面 各 不 相同 。 更 具有 约 
束 性 的 公式 假定 , 仅 有 某 些 参数 在 不 同 成 分 上 不 一 样 ( 比 如 截 距 ) ,并 且 剩 余 参 数 对 
于 混合 成 分 来 都 是 共同 的 。 也 可 以 做 出 某 种 中 间 层 面 的 一 般 性 假设 。 

为 了 进一步 考察 这 种 方法 ,分 析 mx 二 2 情况 。 假 定 抽 样 总 体 包 括 两 种 "类 型 ” 
情况 ,其 中 ,y 的 结果 是 由 分 布 f1(y101) 与 户 (y19 7) 刻画 ,我 们 假定 它们 具有 不 同 
的 矩 。 假 定 类 型 1 子 总 体 具 有 均值 (0 ), 而 类 型 2 子 总 体 具 有 均值 w(9: ), 其中， 
A(9 ) 一 《01)。 例 如 ,在 对 医疗 服务 的 使 用 研究 中 ,类 型 1 子 总 体 对 应 于 频繁 使 用 
者 ,而 类 型 2 则 对 应 于 相对 不 频繁 使 用 者 。 假 定 总 体 中 这 两 种 类 型 的 部 分 分 别 是 
Fl 与 x2《( 二 1 一 zw)。 于 是 ,从 该 总 体 中 抽取 的 随机 样本 将 包括 两 种 类 型 的 x 与 x 
比例 ,尽管 人 们 不 能 观测 到 哪 一 种 情况 属于 哪 一 个 子 总 体 。 也 就 是 说 ,“ 类 型 ”是 潜 
类 型 (latent classes)。 

运用 这 种 模型 的 研究 者 是 要 估计 未 知 参 数 8, ,二 1,2,…,m。 很 容易 发 展 基 
于 式 (20. 15) 的 回归 模型 。 例 如 ,使 用 NB2 模型 , f;(y|9,) 就 是 NB2 密度 (20. 12)， 
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其 参数 为 二 exp(x Bj;) 与 aaj, 所 以 8; 二 CB;,a;)。 当 成 分 数 m 是 给 定 的 时 候 , 在 某 
些 正则 条 件 下 ,对 参数 (x ,6; ) 进 行 极 大 似 然 估计 是 可 行 的 一 1,2，: 

前 面 已 经 给 出 有 限 混合 表示 的 优 缺 点 ,这 里 仅仅 简要 提 及 。 在 竺 续 期 限 衣 景 
下 的 深入 讨论 则 由 18. 5 节 给 出 。 首 先 ,有 限 混 合 是 一 种 灵活 又 简约 的 数据 建 模 方 
法 。 每 一 种 混合 成 分 都 提供 了 对 真实 分 布 某 一 部 分 的 一 种 局 部 近似 。 其 次 ,有 限 
混合 方法 具有 半 参 数 意 义 ,因为 它 并 不 需要 关于 混合 变量 的 任何 分 布 假设 。 最 后 ， 
在 许多 情况 下 ,其 结果 都 很 容易 进行 解释 。 如 果 研 究 者 特别 地 对 源 自 公共 政策 观 
点 的 子 总 体 行为 感 兴趣 ,那么 有 限 混 合 表 示 就 引 人 注 目 。 倘 若 忽 略 潜 类 型 ,这 样 
7 一 ], 则 估计 参数 将 是 潜 类 型 参数 加 权 和 。 

另外 ,存在 几 个 潜在 困难 。 第 一 ,我 们 很 少 具有 关于 设 定 成 分 个 数 的 理论 保 
证 ,而 且 如 果 一 些 成 分 不 是 充分 不 同 的 ,那么 确实 不 能 区 分 它们 。 一 种 通常 的 做 法 
是 ,以 几 个 成 分 开始 ,然后 增加 一 些 成 分 ,如 果 这 样 做 ,模型 拟 合 显著 地 得 到 改进 。 
在 一 些 情况 下 , 仪 仅 允 许 截 距 是 各 不 相同 的 ,而 硬性 规定 ,不 同 成 分 的 冬 率 都 是 相 
等 的 。 在 这 种 过 程 中 ,必须 小 心 谨慎 ,因为 在 m 未 知 的 情况 下 ,并 不 完全 知晓 极 大 
似 然 估 计量 的 抽样 性 质 。 

有 几 个 研究 已 表明 ,对 于 医疗 保健 的 计数 模型 来 说 ,有 限 混 合 模型 拟 合 得 相当 
好 [ 德 布 和 特 里 维 迪 (Deb and Trivedi,1997，2002)]。 为 此 ,一 种 可 能 的 原因 是 ,总 
体 被 个 体 潜 健康 状况 分 割 。 那 些 健康 的 人 ,或许 大 多 数 人 ,会 产生 低 平 均 需 求 , 然 
而 那些 有 病 的 人 会 引致 高 平均 需求 。 当 被 观测 到 的 健康 状况 是 不 完全 可 观测 时 ， 
有 限 分 布 模型 可 能 会 很 好 地 分 离子 总 体 。 


20. 4. 4 截 必 与 刷 拓 


在 一 些 研究 中 ,样本 中 要 求 包括 从 事 关 注 活动 的 被 抽样 的 个 体 。 于 是 ,计数 数 
据 是 截 尾 的 ,因为 数据 仅仅 在 响应 变量 的 某 个 范围 内 是 可 观测 的 。 截 尾 计 数 的 例 
子 包 括 在 调查 期 间 每 周 搭乘 公共 汽车 的 汽车 游行 次 数 ,在 商业 大 街 土 的 被 抽样 个 
体 的 购物 次 数 ,在 所 有 这 些 情 况 下 ,我 们 不 能 观测 到 零 计 数 , 所 以 这 种 数据 称 为 零 
截 尾 的 (zero-truncated) , 或 更 一 般 地 , 称 为 左 截 尾 。 右 截 尾 是 由 大 于 某 一 个 特定 伍 
而 失去 观测 值 引起 的 。 

16. 2 节 已 经 给 出 ,利用 ML 估计 对 和 截 尾 模型 与 删 失 模型 的 一 般 研 究 。 这 里 专 
门 研究 计数 数据 。 

截 尾 会 导致 非 一 致 参数 估计 ,除非 对 似 然 果 数 加 以 适当 修改 。 考 察 零 截 尾 情 
况 。 设 F(y|19) 表 示 密 度 函 数 ,而 F(Cy|109) 王 PrLY<<y] 表示 离散 随机 变量 的 累积 分 
布 函数 ,其 中 ,0 表示 参数 向 量 。 当 小 于 正 整 数 1 的 y 的 实现 值 都 锌 省 略 时 ,得 到 
堆 截 尾 密度 为 : 

f(y10) 
1 一 下 (010) 
这 是 专门 研究 零 截 尾 泊 松 (zerortruncated Poisson) 的 情况 ,例如 ,f(y|x;y 宇 1) 王 
ey?/[y1(1 一 exp( 一 1))]。 容 易 构造 基于 该 密度 的 对 数 似 然 ,从 而 获得 极 大 似 然 
估计 值 。 


f(y|0,y 宇 1) 二 y 一 1， 2 《20. 16 ) 
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删 失 计数 (censored counts) 最 普遍 地 是 由 计数 汇总 大 于 某 一 个 值 而 产生 的 。 
当 大 于 汇总 值 的 总 概率 质量 相对 很 小 时 ,调查 设计 中 经 稼 这 样 做 。 稚 尾 与 删 失 之 
间 的 一 个 重要 差异 是 ,在 删除 情况 下 ,对 应 于 删 失 计数 的 协 变量 都 是 可 观测 的 ;在 
截 尾 情况 下 ,计数 结果 既 不 是 可 观测 的 , 协 变量 也 不 是 可 观测 的 。 与 截 尾 情 交 一 
样 , 如 果 错 误 使 用 了 删 失 似 然 , 删 失 会 导致 非 一 致 的 参数 估计 值 。 还 可 参见 16. 2 市 。 

例如 ,大 于 某 个 已 知 值 c 的 事件 数 被 汇总 成 单一 类 别 。 从 而 ,yy 的 某 些 值 是 不 
完全 可 观测 的 ;其 准确 值 是 未 知 的 ,但 知道 它 等 于 或 大 于 c。 观 测 数 据 具 有 密度 

g(y10)= 1 。 ?一 (20. 17) 

其 中 ,ec 是 已 知 的 。 

一 种 相对 复杂 的 情况 是 样本 选择 (sample selection) 内 容 | 特 泽 (Terza， 
1998) |。 于 是 , 仅 当 男 一 个 与 y 潜在 相关 的 随机 变量 大 于 茶 个 门限 全 时 ,计数 > 才 
是 可 观测 的 。 例 如 ,为 了 见 到 医疗 专家 ,人 们 首先 必须 看 一 般 医师 。 


20. 4. 5 修正 计数 模型 


引出 本 节 修 正 计 数 模型 的 主要 动因 是 ,解决 所 谓 的 超额 零 (excess zeros) 问题 ， 
数据 存在 的 零 比 计数 模型 所 预测 的 要 多 许多 ,诸如 当 松 计数 模型 ,甚至 是 NB2。 

围栏 模型 或 两 部 分 模型 

围栏 模型 (hurdle model) 或 两 部 分 模型 (two part model) (参见 16. 4 节 ) 放 松 了 
关于 0 与 正 整数 均 来 自 相 同 数据 生成 过 程 的 假设 。0 是 由 密度 万 (…) 来 决定 的 ,所 
以 Pr[ y= 二 0]= 二 11(0)。 正 的 计数 来 自 截 尾 密度 户 (y|y>>0) 王 户 (y)7/CL 一 户 (0))。 为 
了 确保 概率 和 为 1, 要 用 PrLy>>0j=1 一 万 (0) 去 磁 。 因 而 : 





方 (0)， 当 y 一 0 
8(Yy) nwo 当 ,之 1 (20. 18 ) 
只 有 方 () 王 户 () 时 , 才 简 化 成 标准 模型 。 因 而 ,在 修正 模型 中 ,生成 0 与 正 计 数 
的 两 种 过 程 没 有 强制 为 相同 的 。 尽 管 引 出 该 模型 的 动因 是 研究 超额 零 , 但 它 还 有 
能 力 对 极 少 零 问题 进行 建 模 。 

围栏 模型 的 极 大 似 然 估计 涉及 似 然 函 数 中 的 两 项 极 大 化 :一 个 对 应 于 0 的 ,向 
男 一 个 对 应 于 正 的 。 这 样 做 简单 易 行 。 

围栏 模型 具有 下 述 解释 : 它 反 映 出 两 阶段 决策 过 程 。 例 如 ,病人 开始 找 医生 第 
一 次 出 诊 , 但 第 二 次 或 后 来 出 诊 则 是 由 不 同 机 制 来 决定 的 [ 波 尔 迈 耶 和 马 尔 里 硕 
(Pohlmeier and Ulrich, 1995) | 。 

回归 应 用 使 用 了 泊 松 模型 或 负 二 项 式 的 围栏 形式 ,这 通过 将 f1(*) 与 fi(*) 设 
定 成 前 面 给 定 的 泊 松 或 负 二 项 式 密 度 来 获得 。 在 一 些 应 用 中 ,对 0/1 结果 进行 建 
模 的 围栏 部 分 中 的 协 变量 不 需要 与 出 现在 截 尾部 分 的 那些 协 变 量 一 样 ,尽管 在 实 
际 应 用 中 它们 经 常 是 相同 的 。 围 栏 模型 得 到 了 广泛 应 用 ,而 围栏 负 二 项 式 模型 则 
是 相当 灵活 的 。 其 缺点 是 该 模型 并 不 是 非常 简约 ,参数 个 数 一 般 要 加 倍 。 而 且 , 参 
数 解释 也 不 像 没 有 同样 的 围栏 模型 那样 容 多 。 


在 围 芒 设 定 中 ,对 分 布 的 选择 至 关 重 要 。 利 用 更 灵活 的 分 布 给 出 负 二 项 式 的 
模型 明显 比 泊 松 模型 要 有 优势 。 围 栏 模型 的 条 件 均 值 是 正 概 率 与 零 截 尾 密度 的 条 
件 均 值 的 乘积 。 因 此 , 当 正 确 设 定 围栏 模型 时 ,利用 泊 松 回归 ,蕴含 着 错误 设 定 ,从 
而 导致 非 一 致 估计 值 。 由 条 件 均 值 设 定 的 形式 知 ,边际 效应 计算 极为 复杂 ,类 似 于 
16.4 节 使 用 的 两 部 分 模型 。 

含有 零 或 零 脱 胀 模型 

第 二 种 修正 计数 模型 是 含有 零 模型 (with-zeros model) 或 零 膨 胀 模型 。 这 用 具 
有 密度 f1(*) 的 二 值 过 程 补充 了 计数 密度 f,(*)。 当 二 值 过 程 以 概率 f1(0) 取 0 值 
时 ,y 二 0。 当 二 值 过 程 以 概率 方 (1) 取 1 值 时 ,> 由 计数 密度 f;(*) 取 计数 值 0,1， 
2,…。 这 可 通过 两 种 方式 设置 零 计 数 产 生 : 当 二 值 随机 变量 取 1 值 时 ,一 种 是 作为 
二 值 过 程 的 实现 值 , 而 另 一 种 则 是 作为 计数 过 程 的 实现 值 。 其 密度 是 : 


太 (0) 十 (1 一 万 (0)) 户 (0)， 当 y 一 0 
g(y)= 


z (20. 19) 
(1— f1(0)) f(y), 当 y 之 1 


一 些 回归 模型 设 f1(*) 是 logit 模型 ,而 设 f,(*) 是 泊 松 或 负 二 项 式 密度 。 这 种 模 
型 与 围栏 模型 相 比 使 用 很 少 。 它 具有 对 极 少 零 进行 建 模 的 能 力 。 
霉 膨胀 计数 模型 在 经 济 计量 学 中 的 应 用 , 比 其 他 统计 学 科 的 应 用 要 少 得 多 。 


20. 4.6 雇 藤 诸 妈 模型 


计数 数据 可 能 在 某 些 计数 受 限 于 类 型 数目 分 组 之 后 ,能 够 由 离散 选择 模型 方 
法 来 建 模 。 例 如 ,类 型 可 以 是 0,1,2,3 和 4, 类 型 数目 也 可 能 大 于 4 更 多 。 无 序 模 
型 诸如 15. 4 节 曾 讨论 的 多 项 式 logit 均 不 是 简约 的 ,而 且 更 重要 的 是 不 适合 。 相 
反 ,应 使 用 可 辨别 出 数据 顺序 的 时 序 模型 。 

一 种 此 类 模型 是 有 序 模 型 (ordered model)。 这 定义 了 一 个 不 可 观测 潜 变 量 
y”* 二 XB 十 u, 当 yy' 逐步 超越 较 高 门限 时 ,y= 二 0,1,2,… 的 值 就 是 可 观测 的 ,门限 值 
也 是 待 佑 参数 。 当 xz 是 logistic 分 布 (或 者 标准 正 态 分 布 ) 时 ,得 到 了 有 序 logit 模 
型 或 probit 模型 。 当 计数 还 可 取 人 狐 值 时 ,有 反 模 型 (参见 15. 9 而 ) 特 别 有 用 , 就 如 
同 当 对 净 变 化 进行 建 模 时 所 发 生 的 ,譬如 对 工业 厂商 数量 的 净 变 化 。 

男 一 种 可 能 的 时 序 模型 ,是 通过 设 定 关 于 PrL y= 二 1|y 宇 0] .Pr[Ly 二 2|y 之 1 等 
的 二 值 模 型 序列 来 获得 ,尽管 这 显得 繁琐 。 

最 后 ,在 一 些 情况 下 ,除了 计数 ,还 可 利用 持续 期 限 。 例 如 ,如 果 医 生出 诊 日 期 
是 已 知 的 ,那么 人 们 能 对 计数 建 模 ,比如 说 ,月 出 诊 次 数 或 出 诊 的 时 间 间 隅 期 限 。 
通常 后 一 种 方法 更 有 效 , 因 为 它 使 用 了 更 详细 的 数据 ,但 计数 回归 还 能 提供 有 关 协 
变量 作用 的 有 用 信息 [ 迪 安 和 鲍 尔 肖 (Dean and Balshaw，1997) ]。 


20.5 部 分 参数 模型 


我 们 利用 部 分 参数 模型 意 指 ,关注 通过 条 件 均 值 和 方差 ,其 至 它们 都 不 是 完全 
设 定 的 ,来 对 数据 加 以 建 模 。 在 20. 5. 1 节 , 我 们 考察 建立 在 条 件 均值 与 方差 设 定 
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人 


基础 上 的 一 些 模型 。 在 20. 5. 2 节 ,我 们 考察 与 评论 最 小 二 乘法 的 应 用 ,而 最 小 二 
来 法 没有 以 显 性 方式 对 计数 数据 中 的 内 生 异 方差 性 进行 建 模 。 在 20. 5. 3 节 , 将 考 
察 更 多 部 分 数 的 一 些 模 型 ,诸如 那些 对 条 件 均值 给 出 不 完全 设 定 的 模型 。 

该 方法 类 似 于 NLS, 只 是 这 里 考虑 到 被 建 模 为 条 件 均值 也 数 的 异 方差 性 。 


20.5.1 拟 ML 信 订 


如 同 20. 2. 1 节 讨 论 的 , 当 利 用 PML 或 QML 时 ,估计 量 分 布 在 比 可 导致 特定 
似 然 函 数 的 数据 生成 过 程 的 假设 更 弱 的 假设 条 件 下 获得 。 

让 我 们 重新 考虑 式 (20. 6) 。 给 定 关于 w; 的 函数 形式 假设 以 及 o; 的 一 致 估计 
值 w， 人 们 就 能 一 致 地 估计 出 这 种 协 方差 和 矩阵。 我们 能 使 用 泊 松 假设 w= 二 ,但 正 
如 已 注意 到 的 ,数据 经 常 是 过 度 分 散 的 ,w 放 ,一 种 普遍 运用 的 方差 函数 是 一 
(1 op ) pa , 即 在 20. 4. 2 节 曾 经 讨论 的 NB2 模型 ,还 有 wi 一 (1 十 a) pn, 妈 NB1 模型 
的 方差 函数 。 注 意 ,在 后 者 情况 下 , 式 (20. 6) 简 化 成 Vew 雄 ] 二 (1 十 a) (Dxx) 1!， 
所 以 就 过 度 分 散 (a 二 0) 而 言 ,由 式 (20.7) 给 出 的 通常 ML 方差 矩阵 低估 了 真实 方差 。 

相反 , 若 wi; 二 EL(y; 一 xiB):|xij] 是 未 设 定 的 , 则 Vpw[ [wj 的 一 致 估计 值 可 通 
过 艾 殉 一 怀特 (Eicker - White) 稳 健 三 明治 方差 估计 公式 适应 这 种 情况 获得 。 需 
要 对 式 (20. 6) 的 中 间 和 式 进行 估计 。 当 启 信 jy 时 ,N71 (y, 一遍 )?wx’ 全 
lim N20w; XX 。 因而 , Vem[ 成 ] 的 一 致 估计 值 , 通 过 用 (yy 一 户 )3 与 fj 代替 式 
(20. 6) 中 的 wi 与 得到。 

当 对 方差 函数 形式 存在 疑惑 时 ,建议 利用 PML 估计 量 。 从 计算 形式 上 讲 , 这 
在 本 质 上 与 刘 松 ML 的 一 样 ,其 限制 条 件 是 该 方差 矩阵 必须 重新 计算 。 对 稳健 方 
甘 的 计算 经 党 是 标准 软件 包 中 的 一 个 选项 。 

这 些 关 于 泊 松 PML 估计 的 结果 ,在 性 质 上 类 似 于 正 态 条 件 下 线性 模型 的 
PML 估计 结果 。 这 些 结果 可 扩展 到 建立 在 线性 指数 家 族 密 度 基础 之 上 的 PML 售 
计 。 在 所 有 情况 下 ,一致 性 仅仅 要 求 对 条 件 均值 的 正确 设 定 [ 内 尔 德 和 韦 德 伯 思 
(Nelder and Wedderburn，1972) ,而 里 耶 克 斯 等 人 (Gourieroux et al. ，1984a) ]。 
这 就 产生 了 关于 广义 线性 模型 的 大 量 统 计 文献 [参见 麦 卡 拉 和 内 尔 德 (McCullagh 
and Nelder，1989) ]。 这 就 允许 有 效 推 断 提 供 条 件 值 被 正确 设 定 以 及 将 许多 数据 
类 型 钳 套 成 特殊 情况 一 一 连续 ( 正 态 的 ) 、 计 数 ( 泊 松 ) .离散 (二 项 式 ) 以 及 正 的 (全 
玛 ) ,如 同 5.7.4 节 所 详细 曾 述 的 。 许 多 复杂 方法 ,诸如 时 间 序 列 与 面板 数据 模型 ， 
部 在 更 一 般 的 GLM 框架 下 而 不 是 特殊 的 关于 计数 数据 框架 下 得 到 表述 。 

一 些 经 济 计量 学 家 发 现 , 一 种 更 目 然 方式 是 ,运用 GMM 框架 而 不 是 GLM 框 
架 。 于 是 ,起 始点 是 条 件 矩 EL(Cy 一 exp(x;B)|x] 二 0。 如 果 数 据 对 于 不 同 i 而 言 
是 独立 的 ,并 有 旦 条 件 方差 是 均值 的 倍数 ,可 以 证 明 , 最 优 工具 选择 是 x; ,从 而 得 到 估 
计 方 程 (20. 5); 对 于 更 详细 内 容 , 参 见 卡 梅 伦 和 特 里 维 迪 (Cameron and Trivedi， 
1998, 第 37 一 44 页 )。 对 于 计数 面板 数据 (参见 20. 5. 3 节 ) 与 内 生 回 归 元 (endoge- 
nous regressors) ,GMM 框架 具有 丰硕 成 果 。 关 于 计数 的 完全 设 定 参数 联 立 方程 模 
型 正 处 于 其 初期 ,所 以 工具 变量 方法 引 人 注 目 。 给 定 工具 zj,dim(7) 宇 dim(x) ,一 
日 满足 EL(y; 一 exp(x;B)|z;j 二 0,B 的 一 致 估计 量 极 小 化 : 


微观 经 济 计量 学 


nN N 
Q(B) = Dy. — exp(XB))z, | W| >，(y — exp(XB))z, | (20. 20) 
7 = :=] 


其 中 ,W 表示 对 称 加 权 和 气 阵 。 

这 种 方法 的 优 缺 点 如 下 。 主 要 优点 是 ,该 方法 做 出 很 少 的 分 布 假设 ,因而 避免 
本 可 能 的 模型 错误 设 定 。 然 而 ,对 结果 变量 的 离散 性 及 其 自然 的 异 方差 性 的 忽略 ， 
导致 有 效 性 的 损失 。 对 W 矩阵 的 合适 选择 可 缓解 这 一 问题 。 进 一 步 地 , 当 较 高 阶 
惩 潜在 存在 额外 显著 信息 时 ,通过 强调 分 布 的 一 阶 矩 ,TV 估计 量 对 大 数据 的 计数 
或 许 是 敏感 的 。 表 20. 2 前 述 了 某 些 数据 类 型 的 特点 ,这 些 数 据 不 便于 利用 GMM 
类 型 估计 量 进 行 模 模 。 


20. 5.2 ”最 小 二 秃 东 佑 计 


当 关 注 于 上 只 对 条 件 均 值 进行 建 模 时 ,最 小 二 乘法 比 上 一 节 的 方法 更 差 。 

当 条 件 均 值 关于 x 是 线性 时 ,> 对 x 的 线性 最 小 二 乘法 回归 (Linear Least- 
squares regression) 就 得 出 一 致 参数 估计 量 。 然 而 ,对 于 计数 数据 , 设 定 ELy|x]== 
x 6B 是 不 合适 的 ,因为 它 允 许 E[y|x] 出 现 负 值 。 由 于 类 似 原因 ,线性 概率 模型 对 
二 值 数据 而 谊 不 合适 。 

人 们 可 以 考虑 对 y 进行 变换 。 特 别 地 ,对 数 变换 ln y 对 x 回归 。 当 数据 中 包 
括 0 时 ,这 个 变换 就 会 出 现 问题 ,如 同 通常 情况 那样 。 一 种 标准 解决 方式 是 添加 一 
个 常数 项 ,比如 0.5, 然 后 通过 OLS 对 In(y 十 0. 5) 进 行 建 模 。 若 我 们 对 E[y|x]j 而 
不 是 对 ELIln y1xj 感 兴趣 , 则 这 个 特定 方法 就 引入 了 再 变换 的 问题 ,参见 毛 拉 
(Mullahy，1998)。 然 而 ,对 线性 模型 的 转换 具有 方便 的 优点 ,例如 , 当 右 边 内 生变 
量 需 要 成 为 “工具 ”的 时 候 , 这 样 做 就 特别 方便 。 

相反 ,一 种 更 好 的 方式 是 使 用 含有 指数 均值 设 定 的 非 线 性 最 小 二 乘法 ;也 就 是 
说 ,估计 非 线 性 回归 模型 y 二 exp(x'B) 十 x 。 重 要 的 是 ,关于 NLS 估计 量 的 统计 
推断 是 建立 在 艾 克 --- 怀 特 稳健 标准 误差 的 基础 之 上 , 因为 该 回归 的 误差 项 将 是 异 
方差 的 。 

对 计数 而 言 ,NLS 估计 量 通 常 比 泊 松 伪 MLE 的 有 效 性 更 差 。NLS 的 一 阶 条 
件 是 2;(y; 一 exp(xiB))exp(x;B)x 二 0。 与 泊 松 伪 MLE[ 参 见 式 (20. 5)] 情 况 相 
比 , 它 对 残 差 进行 加 权 。 当 VELy |x; 是 ELy; 1x ] 的 倍数 时 , 泊 松 伪 MLE 加 权 就 是 
最 优 的 。 对 于 处 理 计数 数据 的 内 在 异 方差 性 来 说 ,后 者 是 一 个 更 好 的 模型 。 


20. 5. 3 举 参 阁 模 型 


我 们 用 半 参 数 模型 (semiparametric models) 意 指 ,部 分 参数 模型 具有 无 限 维 
(有 成分) 元素, 如 同 9.7 节 所 发 展 起 来 的 。 维 数 会 激发 我 们 对 条 件 均 值 函数 提出 某 
种 结构 。 

一 类 半 参 数 模型 就 是 不 完全 设 定 条 件 均 值 。 重 要 的 例子 是 , 单 指 标 神 型 与 部 
分 线性 模型 。 单 指标 模型 设 定 二 g(xiB), 其 中 ,函数 形式 g(*) 是 未 设 定 的 ,部 分 
参数 线性 模型 则 设 定 ;二 exp(x1B 十 g(z;)), 其 中 ,函数 形式 g(*) 未 设 定 。 在 这 两 
种 情况 下 ,在 没有 gC*) 知 识 时 ,可 获得 8 的 VN 一 致 渐 近 正 态 估计 量 。 


2 计数 数据 模型 


一 


第 二 个 例子 是 , 当 假 定 jy 二 exp(xiB ) 而 VLy; |x] 一 o 是 未 设 定时 ,对 回归 参 
数 8 进行 最 优 佑 计 。 由 于 当 N 一 ce 时 会 产生 无 限 维 元 素 , 所 以 存在 无 限 多 个 方差 
参数 w;。B 的 最 优 佑 计量 称 为 适应 估计 量 , 它 就 像 知 道 w; 一 样 有 效 。 德 尔 加 多 和 
尼 里 斯 纳 (Delgado and Kniesner，1997) 利 用 核 回 归 方 法 ,对 用 于 第 二 阶段 非 线 性 
最 小 二 乘法 回归 的 权 数 加 以 估计 ,将 线性 回归 模型 的 结果 推广 到 含有 指数 条 件 均 
值 函 数 的 计数 数据 上 。 在 他 们 的 应 用 中 ,估计 量 几 乎 没有 显示 设 定 几 王 心 (1 十 are) 
的 结果 ,并 且 NB2 形式 过 度 分 散 。 


20.6 多 变量 计数 与 内 生 回 归 元 


在 本 方 ,我 们 非常 简略 地 介绍 从 横 截 面 到 计数 数据 的 其 他 类 型 的 推广 [对 于 更 
详细 的 内 容 , 参 见 卡 梅 伦 和 特 里 维 迪 (Cameron and Trivedi, 1998)]。 对 于 多 变量 
计数 数据 ,可 提出 许多 模型 ,但 更 受 人 们 喜欢 的 方法 尚未 建立 。 对 于 面板 数据 , 尺 
管 统计 学 文献 考察 了 较 广 泛 的 一 些 模型 ,但 在 经 济 计 量 文献 中 对 使 用 哪 一 种 方法 
却 有 更 多 的 一 致 观点 ;参见 23.7 节 。 


20. 6. 1 多 变量 数据 


在 一 些 数据 中 ,可 以 观测 到 比 一 个 计数 多 的 集合 。 例 如 ,健康 服务 的 几 种 不 同 
类 型 的 数据 都 可 以 得 到 利用 ,诸如 医生 出 诊 与 住院 天 数 。 如 果 计 数 是 相关 的 ,联合 
建 模 将 会 改进 有 效 性 ,并且 提供 数据 更 丰富 的 模型 。 本 节 将 简要 回顾 和 本 章 主 要 
模型 有 关 的 二 变量 计数 模型 (bivariate count models) 。 熟 悉 含 有 相关 误差 项 的 多 
方程 线性 模型 ,比如 6. 9. 3 节 的 SUR 模型 (SUR model) ,读者 可 考虑 对 含有 相关 误 
差 项 的 多 方程 计数 模型 的 推广 。 假 定 我 们 可 观测 到 相同 个 体 的 几 个 计数 变量 ( 比 
如 ,看 医生 次 数 和 拿 处 方药 的 次 数 。 相 关 性 来 源 会 依赖 于 不 可 观测 异 质 性 。 考 虑 
相关 误差 联合 估计 将 会 产生 更 有 效 的 估计 值 , 但 以 额外 计算 复杂 性 为 代价 。 

半 参 数 方法 

一 旦 将 线性 回归 模型 的 一 些 方法 适用 到 条 件 均值 是 非 线 性 的 且 数 据 是 异 方差 
的 计数 数据 上 ,部 分 参数 方法 则 将 这 看 成 看 似 不 相关 问 归 问题 ;参见 6. 10. 3 节 。 

古里 耶 克 斯 . 蒙 福特 和 特 罗 格 思 (Gouriéroux,，Monfort and Trognon，1984b) 
曾经 提出 基于 和 矩 方 法 推导 二 变量 泊 松 类 型 模型 。 他 们 通过 yi 与 y; 的 前 二 阶 和 矩 定 
义 一 个 模型 ,然后 通过 准 广 义 伪 极 大 似 然 方法 估计 它 。 这 种 模型 考虑 到 过 度 分 散 ， 
而 且 它 比 二 变量 泊 松 模型 更 一 般 , 但 它 却 没有 保持 计数 的 整数 值 性 质 。 

德尔 加 多 (Delgado，1992) 将 多 变量 计数 模型 看 作 多 变量 非 线性 模型 ,并 提出 
半 参 数 的 广义 最 小 二 乘法 估计 量 。 利 用 &- NN 方法 对 残 差 协 方差 矩阵 加 以 估计 。 
该 方法 不 同 于 古里 耶 克 斯 . 蒙 福特 和 特 罗 格 恩 (CGourieroux, Monfort and Trognon， 
1984) 在 选择 协 方差 矩阵 佑 计量 时 的 那 种 方法 。 

相当 多 的 参数 研究 都 使 用 两 变量 泊 松 模型 。 推 导 这 种 分 布 的 一 种 方法 是 , 假 
定妆 yi 二 1 十 tw 与 yz 一 zz 十 内 (其 中 ,所 有 zi、z2 以 及 ww 者 是 独立 的 且 服 从 泊 松 分 
布 ) 时 ,就 生成 两 个 计数 yi 与 , 正 的 参数 wz 以 及 Ma 分 别 被 参数 化 为 外 生 协 变 


微观 经 济 计量 学 


人 


量 的 图 数 。 这 称 为 三 变量 归 约 (trivariate reduction)。 
y 的 边缘 分 布 是 泊 松 [4; 十 zj], 因此 ,这 个 模型 将 条 件 均 值 限 定 等 于 每 一 个 计 
数 变 量 的 条 件 方 差 , 所 以 ， 


EL yi;lx; = VI yj; |X,; | (20. 21) 
对 于 7 一 1,2, 其 中 ,x; 表示 解释 变量 的 向 量 。 相 关系 数 由 : 


Al2 


一 一 一 (20. 22) 
(AI TAiz ) CAs TA) 


Corl yi 3 .V2 | 一 


给 出 ,由 于 Ai 0, 所 以 它 是 正 的 。 

完全 参数 方法 

对 于 每 一 个 计数 ,通过 引入 不 可 观测 异 质 性 ,最 近 几 个 研究 发 展 了 比较 好 的 参 
数 模型 。 有 关 问 题 已 在 6. 10. 1 节 与 19. 3 节 讨 论 过 。 

马歇尔 和 奥 尔 金 (Marshall and Olkin，1990) 以 下 述 方式 考察 两 个 计数 边缘 分 
布 中 含有 乘法 不 可 观测 异 质 性 (multiplicative unobserved heterogeneity ) 的 模型 。 
设 y; 表示 PLAjvj,; 二 1,2, 其 中 , 马 表示 泊 松 分 布 ,其 均值 为 XAjyv, 而 v 服从 伯 玛 分 
布 ,其 密度 为 : 
exp( 一 v) 

l(a) 
随机 变量 y 可 以 解释 为 共同 (分 享 的 ) 不 可 观测 异 质 性 。 所 得 到 的 模型 是 一 个 因素 
模型 (one-factor model) 。 两 个 计数 的 二 变量 负 二 项 式 (BVNB) 分 布 被 定义 为 : 


po) 一 





f (yi,y2 |xi, x2) =| mo [Xi ov) fo Cy [Xo svg dy (20 23) 
i - IT 一、 v2 CA by )Y | eh 
ECa 
_ L(y 4 A | | 人 2? Tr 
yilyz tla) LA 十 A2 十 1 ) 十 ) 十 1 


1 2 
~ [i 十 A 十 1 
这 种 混合 具有 闭 形 式 解 ,但 该 模型 把 不 可 观测 异 质 性 限定 为 两 个 计数 变量 的 
同一 成 分 。 联 合 似 然 组 建成 如 同 式 (20. 23) 的 项 。 其 边缘 分 布 都 是 单 变量 负 二 项 
式 , 而 且 两 个 计数 变量 之 间 的 相关 性 
AyAz 


V (Ai adi) (Az ads) 


Corl yi ,vy; | 一 (20. 24 ) 


必须 是 正 的 。 

卡 梅 从 和约 彰 示 (CCatmeron and Johansson，1998) . 臣 金 和 特 里 维 迪 (Munkin 
and Trivedi，1999) 以 及 奇 布 和 温 克 尔 曼 (CChib and Winkelmann，2001) 提 出 了 一 
些 含有 更 灵活 相关 结构 的 模型 ,但 在 计算 时 要 求 高 等 方法 。 

芒 金 和 特 里 维 迪 (Munkin and Trivedi，1999) 曾经 考察 如 下 BVNB 模型 的 
推广 : 


AL/ 计数 数据 模型 


加 


flyi, ys | Xi yx ) 一 | | fiCyi [xv ) fo yo Xo sv) gy sv dyidy, (20. 25) 


其 中 ,联合 分 布 是 由 两 个 边际 模型 组 成 的 ,每 个 模型 以 独立 不 可 观测 异 质 性 变量 为 
条 件 ,v 与 分 别 被 设 定 成 二 变量 正 态 分 布 。 以 (Xi ,Xz ,v1 ;v2 ) 为 条 件 的 每 一 个 边 
了 蒜 模 型 都 是 含有 乘法 不 可 观测 正 态 异 质 性 的 沪 松 模型 。 因 此 ,该 模型 是 二 变量 泊 
松 对 数 正 态 混 合 (bivariate Poisson-log-normal mixture) 。 似 然 吨 数 是 在 如 同 式 
(20. 25) 的 样本 上 的 乘积 。 作 者 将 这 解释 成 为 “两 因子 模型 ”(two-factor model) 。 
这 种 设 定 更 具有 灵活 性 ,就 如 辣 它 对 两 个 不 可 观测 成 分 之 间 相 关 性 的 符号 与 大 小 
没有 约束 一 样 。 然 而 ,这 种 额外 的 灵活 性 引进 了 计算 复杂 性 ,因为 式 (20. 25) 中 的 
二 变量 积分 没有 解析 解 , 从 而 必须 用 基于 模拟 方法 (第 12 章 曾 讨论 ) 处 理 。 当 模型 
维 数 即 y 变量 的 个 数 增 加 时 ,所 涉及 的 数值 积分 的 阶 数 也 会 增加 。 纺 合 了 可 能 大 
样本 量 的 这 种 特性 使 得 计算 任务 非常 老 重 。 柯 布 和 温 殉 尔 曼 (Chib and Winkel- 
mann，2001) 提 出 一 种 可 供 选 择 的 贝 叶 斯 MCMC 方法 ,该 方法 保留 上 述 设 定 的 灵 
活性 ,并 处 理 了 高 维 数 结 果 癌 量 。 他 们 运用 六 维 混 合 当 松 对 数 正 态 模 型 阐述 他 们 
方法 的 灵活 性 。 

最 近 发 展 起 来 的 对 相关 计数 进行 建 模 的 另 一 种 方法 是 19. 3 证 曾 描述 的 联接 
方法 。 这 里 以 对 边缘 分 布 进行 设 定 开始 ;联合 分 布 可 利用 联接 ,通过 组 合 边 绿 分 布 
获得 。19. 3 节 曾 给 出 相关 持续 期 限 的 一 些 例子 。 还 可 参见 卡 梅 化 `. 李 、 特 里 维 迪 
和 和 许 默 (Cameron, Li, Trivedi, and Zimmor， 2004)。 


20.6.2 ”具有 内 竺 回归 元 的 计数 模型 


在 许多 背景 下 产生 了 计数 变量 的 联 立 模型 。 例 如 , 卡 梅 伦 等 人 (Cameron et 
al. ，1988) 关注 于 计数 变量 (医疗 使 用 ) ,但 协 变量 中 的 一 个 即 健康 保险 状况 主题 是 
内 生 选 择 的 。 毛 拉 (Mullahy，1997) 在 横 截 面 背 景 下 ,而 克 雷 茵 和 迪 盖 特 (Crépon 
and Duguet，1997b) 在 面板 数据 背景 下 ,将 GMM 方法 应 用 到 含有 内 生 回 妇 元 的 
计数 模型 上 。 一 个 来 自卫 生 经 济 学 的 非常 著名 的 例子 涉及 医疗 服务 的 计数 模型 ， 
诸如 就 医 次 数 ,其 中 一 个 回归 元 是 个 体 的 医疗 保险 状况 。 对 医疗 保险 的 选择 与 结 
果 方 程 误差 项 是 不 相关 的 假设 是 不 现实 的 ,因而 保险 回归 元 可 能 是 内 生 的 。 第 22 
章 将 提供 更 多 例子 ,以 及 具有 内 生 回 归 元 的 面板 计数 模型 的 详细 内 容 。 

当前 的 经 济 计量 文献 提供 两 种 估计 具有 内 生 回 归 元 的 方法 :一 种 是 建立 在 
GMMVIV 基础 上 的 方法 ,而 另 -一 种 则 是 建立 在 极 大 似 然 较 强 假设 基础 上 的 方法 。 
我 们 将 依次 考察 它们 。 

第 一 种 方法 [ 毛 拉 (Mullahy，1997)] 以 矩 条 件 开 始 。 考 察 含 有 可 加 零 均 值 误 
差 项 的 指数 均值 模型 


四 一 下 [yx 二 一 exp(xG) 十 ww (20. 26 ) 
El vy; |x; |0 : (20. 27) 

假定 具有 可 利用 的 工具 变量 xm , 它 满足 和 矩 条 件 : 
Ely,|z, |=0 (20. 28) 


El y;— exp(x;B) |z; | 一 0 
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于 是 ,假定 存在 足够 多 的 可 利用 的 矩 条 件 ,GMM 或 非 线性 的 工具 变量 估计 就 是 可 
行 的 。 这 种 方法 已 在 6. 5. 3 市 讨论 过 。 详 细 内 容 和 和 有关 讨论 ,读者 可 参考 该 节 。 
不 过 注意 到 ,在 实施 这 个 方法 时 ,忽略 变量 计数 性 质 ,并 且 对 模型 进行 处 理 就 好 像 
是 对 舍 有 指数 均 侦 的 任何 其 他 非 线 性 模型 那样 。 另 一 方面 ,注意 , 异 方差 性 非常 可 
能 与 计数 数据 联系 在 一 起 ,因而 运用 GMM/ 工 具 变 量 方 法 时 ,应 该 考虑 到 这 种 复 

毛 拉 已 经 指出 ,乘法 误差 项 设 定 具有 某 种 优点 。 然 而 ,这 会 产生 不 同 矩 条 件 。 
设 : 

El y; |x; ,v; |=exp(x; 0 )y, (20. 29) 

从 而 得 出 矩 条 件 : 


一 一 | |=0 0. 30 
Ep| 过 本 0 


它 是 6.5 节 曾 讨论 的 非 线 性 矩 条 件 ELrCy;,%;,B)1z; 二 0 的 一 种 特殊 情况 。 倘 若 利 
用 适当 且 充 分 的 矩 条 件 , 则 可 运用 GMM 方法 。 可 是 ,就 计数 变量 而 言 , 异 方差 性 
可 能 会 册 次 出 现 , 并 且 有 效 性 会 损失 ,因为 忽略 了 变量 的 计数 特性 。 

一 种 可 供 选 择 的 方法 是 , 联 立 处 理 因 变量 的 计数 特性 ,并 且 内 生 回 归 元 问题 是 
更 为 参数 化 的 [| 特 译 (Terza，1998) |。 德 布 和 特 里 维 巡 (Deb and Trivedi，2004) 发 
展 含 有 保险 订 划 变量 (D) 作 为 回归 元 的 计数 (Y) 与 关于 保险 计划 的 二 值 选择 模型 
的 联合 模型 。 丰 他们 的 模型 中 ,内 生性 起 因 于 结果 (计数 ) 方 程 与 二 值 选择 方程 中 
存在 的 相关 不 可 观测 寞 质 性 。 他 们 的 模型 具有 下 述 结 构 ， 


Prj Y, — YY; | 和， DD), ,1; | 一 大 xi 二 D. 十 AL;) (20.31) 
Pr| D,=1 |z, ,|=g (Za 十 SU ) (20., 32) 


其 中 ,i; 表示 反映 不 可 观测 异 质 性 的 潜 因 素 (latent factors) ,而 6 与 1 表示 有 关 的 因 
子 人 负荷 cii(factor loadings)。 以 共同 潜 因 素 为 条 件 的 选择 与 结果 变量 的 联合 分 布 
能 与 成 : 


Pr| Y， 一 VY; ) 也) 一 l | A ‘4; |= f(xXB+Yy, dd. 十 Al ) pg (zo -dL,) (20. 33) 
因为 假定 (Y，D) 是 条 件 独立 的 。 
由 于 是 未 知 的 ,所 以 估计 会 出 现 此 问题 。 尽 管 i; 是 未 知 的 ,但 假定 4; 分 布 h 
是 已 知 的 ,因此 能 对 联合 密度 进行 积分 , 即 : 
Pr| Y 一 Vi ,1): = |} | xi Zi | 一 | Ex 十 7 DD. 十 AL )rr (Ze 十 芒 ; ) Ih;) a 
(20. 34 ) 


一 旦 以 这 种 形式 计算 ,模型 的 未 知 参数 可 以 通过 最 似 然 法 得 到 估计 。 
为 了 简单 起 见 ,假定 h(i;) 没 有 未 知 参 数 。 于 是 , 极 大 似 然 估计 量 极 大 化 联合 


[C12 义 称 为 央 子 输入 , 即 原始 变数 与 因子 之 间 的 相关 系数 。 一 一 译 者 注 


2 计数 数据 模型 


三 大 可 


似 然 函数 LI9 ,0; | yw Dixiz) ,其 中 ,0 王 (Gy A) 与 2 一 (aw ,9) 分 别 表 示 结 果 
忆 计 划 选 择 方程 中 的 参数 ,而 L 表示 联合 似 然 ,其 第 i 个 元 素 是 式 (20. 34) 所 定义 
的 。 为 了 识别 ,需要 额外 正规 化 约束 ， 

给 定 关 于 fg 以 及 h 的 适当 设 定 , 估 计 的 主要 实际 问题 是 ,该 积分 通常 没有 闭 
形式 解 。MSL 佑 计量 涉及 用 模拟 样本 类 似 形式 (平均 ) 代 替 期 望 , 即 ， 


ev > ~ 
PifY, = y,,D; = 1|x,z] = ss DLE + yD, +N ga + )] 
* 二 1] 


《20. 35 ) 


其 中 ,i 表示 来 自 密度 h 的 伪 随 机 数 第 s 个 采样 (出 自 总 数 S 个 采样 ), 而 Pr 表示 模 
拟 概 率 。 于 是 ,可 定义 数据 的 模拟 似 然 函 数 。MSL 佑 计量 对 模拟 对 数 似 然 求 极 
大 值 。 

在 计数 回归 模型 中 ,由 内 生 虚 拟 回 归 元 发 展 起 来 的 这 种 方法 能 推广 到 多 重 虚 
拟 以 及 多 重 结果 上 ,不 论 是 离散 的 还 是 连续 的 情况 。 其 局 限 性 是 估计 过 程 繁琐 , 它 
与 工具 变量 类 型 估计 量 相 比 显得 相当 复杂 。 另 外 ,如 同 任何 联 立 方程 模型 一 样 , 可 
识别 性 是 一 个 问题 。 应 用 研究 一 般 包 括 从 x 向 量 中 排除 z 向量 里 的 某 些 非 平凡 解 
释 变 量 。 


20.7 计数 例子 :进一步 分 析 


现在 ,我们 重新 考察 前 面 建 立 在 泊 松 回归 基础 上 .运用 更 为 灵活 的 参数 模型 以 
-NB2 模型 的 分 析 。 

20. 3 市 提供 的 表 20. 5 中 最 后 一 列 给 出 了 NB2 模型 的 一 些 结 果 。 这 里 ,还 要 
报告 稳健 标准 误差 与 1 比率。 首先 ,注意 到 ,过 度 分 散 系 数 a 是 非常 显著 的 。 沃 尔 
德 检验 统计 量 是 8. 926 ,导致 了 对 等 分 散 性 (a 二 0) 零 假 设 拒 绝 决策 。 与 此 一 致 的 
是 ,对 数 似 然 从 一 60. 087 增 大 到 一 42. 777。 很 明显 ,模型 拟 合 改进 相当 大 。 由 于 
模型 是 车 套 的 ,所 以 没有 必要 报告 AIC 与 BL 

表 20. 6 的 第 3 行 给 出 来 自 NB2 模型 的 预测 频数 。 这 些 非常 接近 于 观测 到 的 
频数 ,从 而 证 实 了 模型 拟 合 的 改进 ,过 度 分 散 得 到 了 解释 。 

然而 ,在 可 供 选 择 的 一 些 佑 计 方 法 之 间 , 系 数 本 号 看 起 来 相当 稳定 ,而 且 所 有 
效应 都 得 到 准确 测算 ,反映 出 大 样本 的 特性 。 该 结果 的 这 些 特性 令 人 鼓舞 ,这 显示 
NB2 模型 是 合情合理 的 。 正 如 几 基 本 经 济 理论 预测 的 那样 ,利用 与 共 保 率 是 负 相 
关 的 。 估 计 影 响 看 起 来 对 过 度 分 散 处 理 并 不 敏感 。 

另外 ,对 建 模 进行 精炼 是 可 能 的 。 例 如 , 德 布 和 特 里 维 迪 (Deb and Trivedi， 
2002) 将 具有 两 种 成 分 的 有 限 混 合 模 型 与 两 部 分 (围栏 ) 模 型 的 效果 进行 比较 ,可 以 
上 发现, 后 者 拟 合 得 更 好 。 不 过 ,围栏 模型 甚至 比 NB2 模型 拟 合 得 要 好 。 尽 管 这 种 
精炼 提供 了 额外 信息 ,但 这 里 给 出 的 结果 没有 一 个 被 认为 会 对 利用 价格 敏感 性 基 
本 问题 引起 误导 。 

对 就 医 次 数 来 说 ,NB2 模型 发 挥 了 更 好 的 作用 。 然 而 ,对 于 其 他 计数 结果 , 甚 
至 可 能 需要 比 NB2 更 灵活 的 模型 。 
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20.8 ”应 用 人 研究 


可 以 发 现 ,那些 非 线 性 最 小 二 乘法 模型 很 容易 利用 关于 泊 松 回归 的 软件 包 ， 
这 是 一 般 的 经 济 计量 学 和 统计 学 软件 包 广 泛 利 用 的 选项 。 要 获得 稳健 的 标准 误 
差 ,需要 小 心 谨 居 。 许 多 经 济 计量 学 软件 包 还 包括 人 负 二 项 式 回归 与 基本 的 面板 
数据 模型 。 而 一 般 的 统计 学 软件 则 在 广义 线性 模型 模块 里 包含 计数 回归 。 标 准 
软件 包 还 会 产生 某 种 拟 合 优 度 的 统计 量 , 比 如 伪 R* 测量 ,对 于 泊 松 模型 来 说 , 参 
见 8.7.1 计 有。 

最 近 发 展 起 来 的 一 些 模 型 ,请 如 有 限 混 合 模型 .大 多 数 时 间 序 列 模型 以 及 动态 
面板 数据 模型 ,都 需要 发 展 各 自 特有 的 程序 。 一 种 有 效 的 方法 是 ,运用 矩阵 编程 说 
言 与 以 用 户 定义 的 目标 汤 数 为 基础 进行 倍 计 的 软件 结合 起 来 。 对 于 简单 模型 来 
说 ,许多 计算 机 程序 使 得 执行 极 大 似 然 估 计 与 (非常 值得 做 的 ) 对 由 用 户 定 义 的 明 
数 进行 稳健 方差 佑 计 成 为 可 能 。 

除 报告 参数 估计 值 之 外 拥有 估计 效果 数量 指标 也 很 有 用 , 如同 20. 2. 3 五 所 讨 
论 的 。 像 20. 2. 4 节 注 意 的 ,应 小 心 并 慎 , 确 保 沾 松 回 归 模 型 所 报告 的 标准 误差 以 
及 1 统计 量 , 都 建立 在 对 过 度 分 散 而 言 稳健 的 方差 估计 值 之 上 .。 

除 估 计 之 外 ,强烈 建议 设 定 检验 用 于 评价 倘 计 模型 的 适宜 性 。 就 泪 松 模 截 面 
回归 而 言 , 很 容易 执行 过 度 分 散 检 验 。 对 于 任何 参数 模型 ,人 们 可 比较 计数 的 实际 
频率 分 布 与 拟 合 频率 分 布 ,尽管 并 不 总 是 容易 认识 到 , 当 观 测 计数 的 分 布 高 度 分 敌 
时 , 哪 一 个 模型 会 失效 。 可 以 运用 建立 在 实际 频率 与 拟 合 频率 基础 上 的 正式 统计 
设 定 和 拟 合 优 度 。 / 

在 大 多 数 实际 应 用 中 ,人 们 可 能 面临 模型 选择 问题 。 对 于 基于 似 然 的 未 租 入 
式 模型 来 说 ,人 们 能 使 用 选择 准则 比如 赤 池 信息 准则 (AIC) ,对 于 许多 参数 模型 ， 
AIC 建 芯 在 拟 合 对 数 似 然 基 础 上 且 有 模型 是 由 度 的 惩 昼 。 


20.9 文献 注释 


20. 2 卡 梅 伦 和 特 里 维 迪 (Cameron and Trivedi1，1998) 对 本 章 涵 盖 的 所 有 专 
题 都 曾 给 出 更 具体 也 更 深入 的 研究, 他们 还 提供 了 综合 参考 文献 。 温 殉 尔 竖 
(Winkelmann，1997) 则 提供 了 关于 计数 方面 的 经 济 计 量 学 文献 研究 。 统 计 学 文献 
通常 是 在 GLM 背景 下 分 析 计 数 的 。 麦 卡拉 和 内 尔 德 (McCullagh and Nelder， 
1989) 是 标准 的 参考 文献 。 经 济 计 量 学 文献 通常 低估 了 GLM 文献 的 页 献 。 法 尔 
迈 耶 和 塔 敬 (Fahrmeier and Tutz，1994) 提 供 更 多 关于 GLM 的 最 近 的 经 济 计量 解 
释 。20. 2 节 的 内 容 是 标准 的 ,并 在 许多 地 方 出 现 。 

20.3 德 布 和 特 里 维 迪 (Deb and Trivedi，2002) 给 出 RHIE 数据 的 详细 
分 析 。 

20.4 卡 梅 伦 和 特 里 维 迪 (Cameron and Trivedi，1986) 提 出 负 二 项 式 的 早期 
表示 和 应 用 。 召 斯 曼 等 人 (Hausman et al. ，1984) 将 该 模型 及 其 变形 应 用 于 面板 
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WE 


数据 。 对 于 20. 4. 3 节 的 有 限 混 合 方法 ,参见 德 布 和 特 里 维 迪 (Deb and Trivedi， 
1997) 。 关 于 20. 4. 5 节 的 围栏 模型 应 用 ,包括 第 一 个 提出 该 模型 的 毛 拉 (Mullahy， 
1986) . 波 尔 迈 耶 和 乌 尔 里 希 (Pohlmeier and Ulrich，1995) . 古 尔 稳 和 特 里 维 迪 
(Gurmu and Trivedli，1996 7) 。 

20.5 古里 耶 克 斯 等 人 (Gourieroux et al. ，1984a, b) 以 及 卡 梅 伦 和 特 里 维 迪 
(Cameron and Trivedi，1986) 都 详细 阐述 20. 5. 1 节 的 伪 MLE。 

20.6 20. 6 节 讨 论 的 数据 类 型 的 回归 模型 处 于 发 展 初期 。 一 个 著名 例外 是 
(静态 ) 面 板 数 据 计 数 模 型 已 经 很 好 地 建立 起 来 ,其 标准 参考 文献 是 窒 斯 曼 等 人 
(Hausman et al. ，1984) 。 还 可 参见 布 伦 奈 斯 和 约翰 逊 (Brainnas and Johansson, 
1996)。 关 于 多 变量 计数 数据 的 适当 模型 与 含有 内 生 回 归 元 的 模型 研究 是 当前 的 
一 个 活跃 领域 ;参见 特 泽 (Terza，1998) 以 及 德 布 和 特 里 维 迪 (Deb and Trivedi 
2004)。 


习题 


20-1 假定 Y 表示 泊 松 分 布 ,均值 为 w。 

(a) 验证 前 四 阶 矩 分 别 是 yw 和 3 十 Ap。 

(b) 证 明 Pr[Y 二 站 与 PrLY 二 j 一 1j 之 间 存 在 线性 关系 ,j 王 1,2,…。 

(c) 考虑 含有 4 二 exp(xiB) 回 归 的 泊 松 MLE。 对 泊 松 MLE 方差 的 可 能 售 计 
值 包括 V[ B= [OXX | 与 V[ B81= [iy —f) Xx | 1 。 证 明 , 倘 奉 数据 密 
度 得 到 正确 设 定 , 则 它们 是 渐 近 等 价 的 (通过 六 标 度 )。 

20 -2 现在 考虑 泊 松 模型 中 的 过 度 分 散 。 

(a) 假定 Yi 一 刀 [L ,其 中 ,一 exp(8 十 Bz)， 记 三 Mo 十 se, 而 表示 不 可 观测 
随机 变量 ,满足 E[e]=0,V[s]=c?>>0。 证 明 ,VLY>>ELI。 

(b) 考虑 含有 方差 函数 pk 十 ae 的 NB2 模型 ,概率 质量 咀 数 已 由 式 (20. 12) 给 
出 。 利 用 关于 aE[0,3] 的 四 个 不 同 值 的 图 ,描述 Y 的 不 同 实 现 值 的 概率 质量 特 
性 ;在 你 的 回答 里 ,要 强调 靠近 原点 与 位 于 右边 尾部 的 函数 特性 。 

(c) 对 于 20. 4. 1 节 中 由 式 (20. 12) 给 出 的 NB2 密度 ,证明 当 a>0 时 ,该 密度 
趋 于 泊 松 形式 。[ 这 可 能 是 技巧 性 的 。j z 

20-3 考虑 含有 条 件 均 值 一 exp(x 6B ) 的 泊 松 回归 模型 。 将 估计 问题 看 成 
未 加 权 非 线性 平方 问题 , 即 y 二 EL[y|xj 十 e, 其 中 ,ELy|xj 二 exp(xB), 并 且 e 一 iid 
[0,0]。 

(a) 推导 关于 (CB,0 ) 的 非 线 性 最 小 二 乘法 估计 。 把 关于 6 的 最 小 二 乘法 与 极 
大 似 然 方程 加 以 比较 ,并 解释 它们 之 间 差 异 。 

(b) 推导 关于 B8 的 加 权 非 线性 最 小 二 乘法 估计 。 解 释 你 对 权 数 的 选取 。( 权 
数 常 用 于 处 理 异 方差 性 。) 

(c) 将 加 权 非 线性 最 小 二 乘法 与 极 大 似 然 方程 比较 ,如 果 可 能 ,请 解释 其 相 
似 性 。 

20-4 考虑 有 限 混 合 密度 f(y|0) 二 27 jwjfj;(y10;)、C 个 明显 的 潜 类 型 或 者 
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一 些 子 总 体 的 可 加 混合 ， 含有 未 知 的 混合 比 N11"""» NAC 其 中 4 > -| Ti 一 l »s Ti >0。 
这 里 ,y 表示 计数 变量 ,而 关于 第 i 个 观测 值 的 第 7 个 元 素 密 度 表 示 成 : 


TOoytyg) [1 (一 
f (9 =F TT (4 多 ) (a ny 


其 中 sj 一 exb(x Di) » Di 一 入 /ai ;Qj >0 ,而 人， 一 (| Qi ) 。 这 里 ,& 表示 0 或 ] 。 该 
模型 是 含有 C 个 元 素 的 有 限 混合 负 二 项 式 ,并 且 当 aj 二 0 时 ,专门 研究 有 限 混 合 
泊 松 。 

(a) 证 明 E[y; |xj] 二 A 二 2%inXhi, 而 V (yi|x;) 一 i mAiLl 二 aA, J 十 
Ai—A; 。 

(b) 证 明 , 仅 仅 建 立 在 一 阶 矩 基础 上 的 任何 混合 模型 均 是 不 可 识别 的 。 

(c) 证 明 ,建立 在 前 二 阶 矩 基础 上 的 C 个 元 素 的 混合 泊 松 模型 是 可 识别 的 。 

20 -5 [改编 自 巴 尔 塔 基 和 李 (Baltagi and Li,1999) 。] 对 由 20. 2. 4 节 给 出 的 
泊 松 模型 过 度 分 散 的 一 个 简单 检验 是 针对 [和 一 应 关 一 六 对 ;回归 中 原 假 设 
零 系 数 进行 检验 。[ 巴 尔 塔 基 和 李 (Baltagi and Li,1999) | 文献 里 ,提出 一 种 可 供 选 
择 的 检验 涉及 建立 在 (Cy; 一 &)? 对 5 回归 的 相同 检验 。 后 者 由 高 斯 一 牛顿 回归 检 
验 思想 引发 而 形成 (参见 10. 3. 9 节 )。 请 分 析 这 两 种 检验 之 间 的 差异 ,以 及 实施 第 
二 种 检验 方式 差异 的 含义 。 

20 -6 对 于 本 题 , 请 用 本 章 数据 的 50% 子 样本 。 

(a) 估计 泊 松 回归 与 负 二 项 式 回 归 , 其 中 ,MDU 作为 因 变 量 , 下 述 一 些 变量 作 
为 解释 变量 :LC、IDP、LINC、FEMALE、FDUDEC、XAGE、BLACK、HLTHG、 
HLTHE 和 HLTIHP。 完 成 下 面 原 假设 的 似 然 比 , 即 变量 LC 与 IDP 对 MDU 没有 
影响 。 

(b) 利用 本 章 中 满足 g(C) 二 的 方差 公式 (20. 9) 与 满足 g() 王 性 的 公式 
(20. 10) ,检验 泊 松 回归 过 度 分 散 。 数 据 更 支持 嘟 一 个 方差 公式 呢 ? 你 从 这 个 习题 
得 到 什么 结论 ? 

Cc) 估计 负 二 项 式 模 型 (NB2) 。 将 过 度 分 散 参 数 的 估计 值 与 (b) 部 分 的 估计 值 
进行 比较 。 请 解释 其 相似 点 与 不 同 点 。 

(d) 利用 来 自负 二 项 式 估 计 的 结果 ,请 比较 处 于 良好 健康 (基准 ) 的 平均 个 体 
与 处 于 不 良 健康 (HLTHP==1) 的 平均 个 体 ,关于 CL 变动 所 估计 的 边际 效应 。 

(e) 对 于 此 泊 松 设 定 , 佑 计 由 零 部 分 (logit 或 probit) 与 正 部 分 (在 零点 截 尾 的 
泊 松 ) 构 成 的 “围栏 形式 ”。 将 这 些 结果 与 那些 来 自 正 常 泊 松 模型 的 结果 进行 比较 。 
分 析 两 种 模型 含义 的 相似 点 与 不 同 点 。 依 据 你 的 分 析 , 哪 一 个 模型 能 更 好 地 解释 
数据 ? 
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能 阐明 事件 跨 时 期 相依 性 。 横 截面 模型 也 没有 令 人 满意 地 解决 关于 行为 持 
久 性 来 源 的 基本 问题 。 这 类 持久 性 可 能 是 行为 方面 的 ， 即 由 真实 状态 相依 
性 引起 的 ;也 可 能 是 虚伪 的 , 即 总 体 不 能 控制 的 异 质 性 行为 的 典型 产物 。 由 
于 面板 数据 也 被 称 为 纵向 数据 ， 包括 相同 对 象 周期 性 重复 观测 值 ,所 以 面板 
数据 具有 很 大 的 潜力 ,用 以 解决 横 截面 模型 所 不 能 满意 处 理 的 问题 。 第 21 
章 至 第 23 章 阑 述 面板 数据 的 一 些 方法 。 就 非 线性 面板 数据 模型 而 言 言 ,我 们 
从 第 21 章 连 续 数据 至 第 23 章 受 限 固 变 量 进 行 系统 研究 。 既 考 虑 到 固定 效 
应 模型 ,又 顾及 到 随机 效应 模型 。 对 于 持久 性 专题 ,这 这 三 章 在 利用 面板 稳健 
推断 方法 中 显得 特别 重要 。 
“第 21 章 回顾 线性 面板 数据 回归 模型 的 重要 目 一般 性 结论 ， 对 于 那些 具 
有 良好 线性 回归 知识 的 读者 来 说 ,很 容易 阅读 这 一 章 , 它 不 要 求 第 二 部 分 至 : 
第 四 部 分 所 涵盖 的 内 容 。 我 们 建议 ， 对 高 等 内 容 感 兴趣 的 读者 来 说 ， 首先 应 
快速 阅读 本 章 内 容 , 以 便 获得 熟悉 的 重要 概念 和 定义 。 | 

”第 22 章 是 对 第 21 章 内 容 的 重要 推广 ， 尤其 考虑 到 当前 变量 马尔 可 夫 
相依 性 结构 的 动态 面板 。 这 种 分 析 是 置 于 GMM 框架 下 展开 的 ,这 是 目前 
本 领域 颇 受 多 数 应 用 者 喜爱 的 方式 。 当 这 里 的 分 析 涉及 众多 详细 内 容 时 ， 
就 显得 蛇 涩 难 懂 。 假如 对 GMM 具有 深刻 认识 ， 将 有 助 于 掌握 本 章 主要 
结论 。 


洪 截 面 模型 具有 某 些 内 在 局 限 性 。 它们 主要 是 一 一 些 均衡 模型 ， 通常 不 


第 21 章 与 第 22 章 的 结论 ， 没有 以 一 般 而 统一 的 方式 推广 到 第 23 章 非 
线性 面板 模型 上 ， 对 于 受 限 因 变量 面板 模型 来 说 ， 存在 相对 较 少 的 一 般 性 
结论 。 尽 管 这样 , 我 们 仍 在 第 23 章 以 阐述 某 些 一 般 性 问题 和 方法 开始 。 本 
章 稍 后 几 节 将 第 四 部 分 曾经 研究 过 的 横 截面 模型 推广 到 面板 数据 内 容 上 并 
加 以 讨论 。 这 几 节 分 别 分 析 二 值 数据 、 计 数 数据 : 删 失 数 据 以 及 持续 期 限 数 
所 这 四 种 类 型 模型 ,对 于 熟悉 类 似 横 截面 模型 的 读者 来 说 ， 这 些 应 是 为 他 们 
准备 的 通俗 易 慌 的 内 容 。 
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21.1 引 论 


面板 数据 (panel data) 意 指 对 相同 横 截 面 在 几 个 时 期 的 重复 观测 值 ,尤其 是 对 
微观 经 济 学 应 用 中 的 个 体 或 厂商 而 言 。 用 于 刻画 此 类 数据 的 其 他 一 些 术语 包括 ，: 
纵向 数据 (longitudinal data) 与 重复 测量 (repeated measures) 。 关 注 内 容 是 来 自 短 
面板 (short panel) 数 据 , 意 指 对 大 量 横 截 面 个 体 观 测 几 个 时 期 ,而 不 是 长 面板 , 例 
如 ,对 很 少 的 横 截 面 单位 观测 众多 时 期 。 

面板 数据 的 主要 优点 是 , 它 提高 了 估计 准确 性 。 一 旦 对 每 个 个 体 组 合 或 混合 
儿 个 时 期 的 数据 ,这 是 增加 观测 值 的 结果 。 不 过 ,为 了 进行 有 效 统计 推断 , 人们 需 
要 对 给 定 个 体 时 不 同时 期 回归 模型 误差 的 可 能 相关 性 加 以 控制 。 特 别 地 ,在 混合 
OLS 回归 中 ,一 旦 产生 低估 标准 误差 与 很 可 能 被 扩大 的 :统计 量 ,OLS 标准 误差 
一 般 公式 典型 地 高 佑 了 准确 性 。 

面板 数据 的 第 二 个 引 人 注 目 之 处 是 ,对 固定 效应 模型 进行 一 致 估计 的 可 能 性 ， 
该 模型 考虑 到 可 能 与 回归 元 相关 的 不 可 观测 个 体 异 质 性 。 这 种 不 可 观测 异 质 性 导 
致 省 略 变量 偏 倚 , 此 偏 倚 在 原则 上 通过 利用 仅仅 单一 横 截 面 的 工具 变量 方法 加 以 
修正 ,但 在 实际 应 用 中 ,获得 有 效 工 具 是 困难 的 。 如 果 假 定 不 可 观测 的 特定 个 体 效 
应 是 可 加 的 且 时 不 变 的 ,那么 只 含有 两 个 时 期 的 短 面板 数据 给 出 了 一 种 继续 进行 
估计 的 方法 。 

除 微观 经 济 计 量 学 之 外 ,应 用 统计 学 的 大 多 数学 科 都 将 不 可 观测 个 体 异 质 性 
处 理 成 与 回归 元 独立 的 分 布 。 于 是 ,这 种 效应 称 为 随机 效应 (random effects) ,尽管 
一 个 更 好 的 术语 是 纯 随 机 效应 。 与 固定 效应 模型 相 比 ,这 个 较 强 假设 具有 人 允许 一 
致 估计 所 有 参数 包括 时 常 值 回 归 元 系数 的 优点 。 可 是 ,如 果真 实 模 型 含有 固定 效 
应 ,那么 随机 效应 与 混合 估计 量 都 是 非 一 致 的 。 经 济 学 家 经 常 将 随机 效应 模型 的 
假设 看 成 不 是 由 数据 所 支持 的 。 

面板 数据 的 第 三 个 引 人 注 目 之 处 是 ,运用 它 所 得 到 的 认识 个 体 行为 动态 特性 ， 
比 从 单一 槛 截面 中 所 认识 的 要 更 多 一 些 。 因 而 , 横 截 面 可 能 会 得 出 20% 的 贫困 ， 
但 面板 数据 决定 同样 的 20% 是 否 每 年 处 于 贫穷 之 中 。 举 一 个 有 关 例 子 ,面板 数据 
可 确定 个 体 工资 或 失业 期 长 度 的 高 序列 相关 性 是 否 归 因 于 个 体 拥有 高 薪水 或 长 期 
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失业 的 特定 意愿 ,或 是 否 是 拥有 过 去 高 薪水 或 失业 的 结果 。 该 专题 将 推迟 到 第 22 
章 讨论 。 

厂 撤 开国 定 效 应 是 否 是 必需 的 基本 问题 不 谈 , 线 性 面板 数据 模型 及 有 关 估 计 
量 从 概念 上 看 都 是 简单 的 。 用 于 推导 面板 数据 估计 量 的 大 量 代 数 运 算 却 并 不 顺应 
人 们 对 基础 的 认识 ;面板 数据 估计 量 的 统计 性 质 会 随 假 定 模 型 以 及 它 对 不 可 观测 
效应 的 处 理 不 同 而 变化 。 进 一 步 地 , 绝 大 多 数 代数 运算 并 不 可 以 推广 到 非 线 性 面 
板 模 型 。 

本 章 曾 述 各 种 线性 面板 数据 模型 的 基本 估计 量 。21. 2 节 与 21. 3 节 分 别 深 入 
详细 地 介绍 广泛 运用 的 模型 及 估计 量 , 以 及 对 每 年 工时 与 工资 之 间 关 系 的 应 用 。 
固定 效应 模型 与 随机 效应 模型 之 间 的 主要 区 别 放 在 21. 4 节 研 究 。21. 5 节 至 21. 7 
广 分 别 曾 述 混 合 模 型 特定 个 体 固 定 效 应 模型 .特定 个 体 随 机 效应 估计 方面 的 额外 
详细 内 容 。21. 8 节 考 察 线 性 面板 数据 模型 的 其 他 一 些 基 本 内 容 , 比如 推断 与 
预测 。 


21.2 模型 己 信 计量 概 哆 


面板 数据 提供 了 个 体 不 同时 间 的 行为 和 不 同 个 体 的 信息 。 

其 至 对 于 线性 回归 来 说 ,与 模 截 面 数 据 情况 相 比 ,标准 面板 数据 分 析 运 用 了 更 
广泛 的 模型 与 估计 量 。 几 种 标准 模型 由 21. 2. 1 节 阅 述 ,然后 21. 2. 2 节 讨 论 几 种 
佑 计量 。 表 21. 1 给 出 一 个 总 结 , 表 明 若 数据 生成 过 程 是 特定 个 体 固 定 效应 模型 
(individual-specific fixed effects model) , 则 几 种 估计 量 都 是 非 一 致 的 。 


表 21.1 线性 面板 模型 ,常见 估计 量 与 模型 。 


假设 模型 
混合 随机 效应 固定 效应 
人 估计 量 《21. 1) (21. 3) 与 (21, 5) 只 有 (21. 3) 
混合 OLS (21. 1) 一 致 的 一 致 的 非 一 致 的 
组 间 (21.7) 一 致 的 一 致 的 非 一 致 的 
组 内 (或 固定 效应 ) (21. 8) 一 致 的 一 致 的 一 致 的 
一 阶 差分 521. 9) 一 致 的 一 致 的 一 致 的 
随机 效应 (21. 10) 一 致 的 一 致 的 非 一 致 的 


a 此 表 只 考虑 B。 对 于 标准 误差 的 正确 计算 ,参见 21.2. 3 节 。 


与 模 截 面 情 况 相 比 , 求 信 计 量 的 正确 标准 误差 同样 更 为 复杂 。 人 们 除 需 要 控 
制 可 能 的 异 方 差 性 之 外 ,还 要 控制 给 定 个 体 时 误差 在 不 同时 间 上 的 相关 性 ， 
21. 2. 3 全 将 少 盖 这 个 专题 。 


21.2.1 面 芒 数据 模型 


一 种 相当 一 般 的 面板 数据 线性 模型 , 允许 其 截 距 与 斜率 系数 随 个 体 和 时 间 不 
同 而 变化 ,满足 : 
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7 。 
Vi — Qj 二 Xi Bi tui, 1 一 ],*'… ,NN， 1 一 1 了 


其 中 ,yi 表示 纯 量 因 变 量 ,xi 表示 K X1 维 自 变量 向 量 ,w 表示 纯 量 扰动 项 ,i 表示 
模 截面 的 个 体 ( 或 厂商 ,或 国家 ) ,而 i 表示 时 间 。 

由 于 待 估 参数 比 观 测 值 更 多 一 些 , 所 以 该 模型 太一 般 , 从 而 不 可 估计 。 对 au 
与 尽 随 : 及 上 而 变化 的 程度 以 及 误差 ui 的 特性 ,都 需要 施加 进一步 限制 。 

混合 模式 

最 具 约 束 性 的 模型 是 混合 模型 (pooled model) , 它 设 定常 值 系 数 , 即 横 截 面 分 
析 的 通常 假设 ,因此 : 


Vi ~—a 二 XB 二 Tw (21.1) 


耕 这 个 模型 得 到 正确 设 定 , 并 且 回 归 元 与 误差 项 不 相关 ,那么 可 利用 混合 OLS 对 
其 进行 一 致 估计 。 然 而 ,给 定 个 体 时 误差 项 可 能 随时 间 变 化 是 相关 的 ,在 此 情况 
下 ,不 应 使 用 通常 报告 的 标准 误差 ,因为 它们 很 可 能 是 向 下 亿 傈 的 。 此 外 ,采用 固 
定 效 应 模型 (下 面 将 定义 ) 是 适宜 的 ,那么 混合 OLS 估计 量 是 非 一 致 的 。 

个 体 及 时 间 虚 拟 变 量 

模型 (21. 1) 的 一 个 简单 变形 ,允许 截 距 随 不 同 个 体 与 时 间 而 变化 ,而 其 斜率 参 
数 却 不 变 。 于 是 ,yi; =a; 二 7 二 Tx Bu ,或 者 : 


N 1 
Vit joid ji 十 > Yd si 十 xz 十 wit 1) (21. 2) 
7 一 ] xz 一 2 


其 中 , 当 i==; 时 ,N 个 个 体 虚 拟 变量 (individual dummies)4;,; 等 于 1 ,否则 等 于 0; 
当 :一 * 时 ,(T 一 1) 个 时 间 虚 拟 变量 (time dummies)4d,, 等 于 1 ,否则 等 于 0, 并 假定 
xi 不 包含 截 距 。( 兰 包含 截 距 , 则 NN 个 个 体 虚拟 变量 必须 省 掉 一 个 。) 

当 N 一 co 且 丁 一 oo 时 ,这 种 模型 具有 N 十 (TT 一 1) 十 dim[ x 个 参数 ,它们 能 一 
致 地 得 到 估计 。 我 们 关注 短 面板 (short panels), 其 中 ,NN 一 oo, 而 工 则 不 是 。 于 
是 ,y, 能 一 致 地 得 到 估计 ,所 以 (T 一 1) 个 时 间 虚 拟 变 量 被 直接 并 入 回归 元 xx 中 。 
而 其 挑战 在 于 一 旦 控制 N 个 个 体 截 中 a; ,对 参数 6 进行 估计 。 

不 过 ,一 种 可 能 性 是 拥有 观测 值 分 组 的 虚拟 变量 ,诸如 因 地 区 分 组 ,在 此 情况 
下 ,第 24 章 的 集群 方法 (clustering methods) 是 有 意义 的 。 可 是 ,这 里 我 们 对 六 个 
个 体 截 距 的 全 部 集合 N 进行 设 定 ,从 而 导致 N 一 oo 时 的 问题 ，。 

固定 效应 与 随机 效应 模型 

特定 个 体 效应 模型 允许 每 一 个 横 截 面 单元 拥有 不 同 的 截 距 ,尽管 所 有 和 斜率 都 
是 一 样 的 ,因此 : 


Vi =@; 二 Xi 十 Eu (21. 3) 


其 中 ,sy 对 于 不 同 ; 及 i 均 是 iid 的 。 这 是 表述 式 (21. 2) 的 一 种 更 简单 方式 ,这 样 做 
就 将 任何 时 间 虚 拟 变量 包括 在 回归 元 %i 之 中 。a; 表示 可 捕获 不 可 观测 异 质 性 的 
随机 变量 。18. 2 一 18. 5 节 以 及 20. 4 节 对 此 已 经 研究 过 。 


[1 原著 中 该 式 等 号 石 边 缺 少 一 项 “ui”, 这 里 已 经 加 上 ,一 一 详 者 注 
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本 章 目 始 至 终 做 出 一 个 强 外 生性 或 严格 外 生性 假设 : 
Els |a; ,Xi XT] 一 0， t=1],*… ,J 《2 1 . 4) 


因此 ,误差 项 被 假定 ,以 回归 元 的 过 去 值 .现在 值 以 及 未 来 值 为 条 件 的 均值 为 0， 
张伯伦 (Chamberlain, 1980) 针 对 面板 数据 的 外 生性 与 外 生性 检验 给 出 了 详细 讨 
论 。 强 外 生性 剔除 了 含有 滞后 固 变量 的 模型 或 舍 有 作为 回归 元 的 内 生变 量 的 模 
型 ,对 这 些 模型 的 讨论 将 推迟 到 第 22 章 。 

式 (21. 3) 的 一 种 变形 是 把 w 处 理 成 不 可 观测 随机 变量 ,此 随机 变量 潜在 地 与 
观测 回归 元 x* 相关 。 这 种 变形 称 为 固定 效应 (FE) 模 型 ,因为 早期 的 研究 均 把 这 些 
效应 建 模 成 要 估计 的 参数 mw,…,aw。 倘 若 出 现 固定 效应 ,并 与 xs 相关 , 则 许多 估 
计量 比如 混合 OLS 都 是 非 一 致 的 。 相 反 ,在 短 面板 数据 中 ,为 了 确保 对 6 的 一 至 
估计 ,就 需要 剔除 w 的 可 供 选 择 的 其 他 估计 方法 。 式 (21. 3) 的 另 一 种 变形 假定 不 
可 观测 个 体 效应 w 是 随机 变量 ,该 随机 变量 服从 与 回归 元 独立 的 分 布 。 这 种 模型 
称 为 随机 效应 (RE) 模 型 [random effects (RE) model], 它 通常 做 出 另外 的 假设 ， 
即 ; 

ai~ [a, co (21. 5) 
Eit 一 [0， 0 


因而 , 既 假 定式 (21. 3) 中 随机 效应 是 iid 的 ,又 假定 式 (21. 3) 中 误差 项 是 iid 的 。 注 
意 到 ,对 式 (21. 5) 没 有 设 定 什么 特定 的 分 布 。 对 此 模型 而 言 , 更 准确 的 术语 是 单 向 
特定 个 体 随 机 效应 模型 或 更 简单 的 随机 截 距 模型 ,以 此 区 分 含有 更 一 般 随 机 效应 
的 模型 ,比如 22. 8 节 曾 述 的 混合 线性 模型 的 模型 。 不 过 , 男 一 个 称谓 则 是 随机 成 
分 模型 。 

固定 效应 术语 会 潜在 地 使 人 误导 ,而 随机 效应 术语 更 为 准确 地 体现 出 随机 效 
应 。 为 了 避免 这 样 混淆 , 李 明 宁 (M-J. Lee，2002) 把 固定 效应 称 为 “有 关 效 应 ”, 而 
把 随机 效应 称 为 “无 关 效 应 ”。 我 们 使 用 传统 记号 与 术语 ,不 过 很 明显 ,不 论 是 在 固 
定 效 应 模型 中 ,还 是 在 随机 效应 模型 中 ,a; 是 随机 变量 。 

等 相关 性 模型 

可 以 把 RE 模型 看 成 是 混合 模型 的 特殊 化 ,因为 a; 能 被 归 人 误差 项 中 。 于 是 ， 
把 式 (21. 3) 看 成 是 yi 对 x 的 回归 ,其 综合 误差 项 xs 一 w 十 sz 以 及 式 (21.5) 草 含 : 


oO 9 ts 
Cov| (a; te;) (ai 十 el ) |= Zt, t=s (21.6) 


因此 ,RE 模型 利用 了 约束 :综合 误差 是 等 相关 性 (equicorrelated) 的 ,因为 对 于 
上 天 Corl wi ,wi | 二 0 /Los 十 ct | 并 不 随时 间 差 分 1 一 s 而 变化 。 很 显然 ,在 RE 模型 
中 混合 OLS 将 是 一 致 的 , 却 是 无 效 的 。 随 机 效应 模型 ,也 被 称 为 等 相关 性 模型 
(equicorrelated model) 或 可 交换 误差 模型 (exchangeabie errors model) 。 

固定 效应 模型 与 随机 效应 模型 

其 基本 的 差异 在 于 模型 有 没有 固定 效应 。 现 代 经 济 计量 学 文献 强调 固定 效 
应 ,但 我 们 仍然 要 提供 随机 效应 模型 的 详细 情况 。 


ff 线性 面板 模型 :基础 


本 可 


一 些 作 者 , 包括 张伯伦 (Chamberlain，1980，1984) 以 及 伍德 里 奇 (Wool- 
dridge，2002) ,都 在 式 (21. 3) 中 使 用 等 式 : 


Vi 一 Ci; 十 Xi 十 si; 


非常 明显 ,这 种 个 体 效 应 不 论 在 固定 效应 模型 中 还 是 在 随机 效应 模型 中 均 是 随机 
变量 。 这 两 个 模型 都 假定 : 


El y; | Ci ,Xi 一 ci 十 xz 


特定 个 体 效应 c; 是 未 知 的 ,而 在 短 面板 中 不 能 得 到 一 致 估计 ,所 以 我 们 不 能 估 
计 El yi Ci 9» Kj, | o 然后 9 我 们 能 通过 针对 Ci 取 期 望 而 噜 除 Ci ,得 到 | : 


E[ y; | Xi _ =El[c.; | xi ] 十 xx 


对 于 RE 模型 ,假定 ELc |xi jj 二 a; 所 以 ELyi lx 一 ac 十 xzG ,因此 ,不 可 能 识别 
EL yi x ]。 然 而 ,在 FE 模型 中 ,Elci|xi j] 随 xi 而 变化 ,只 是 不 知道 是 如 何 变 化 的 ， 
因此 ,我 们 不 能 识别 ELyi |xa jj。 不 过 ,在 具有 短 面板 的 FE 模型 中 ,一 致 估计 6 是 
可 能 的 (如 同 下 面 将 要 讨论 的 )。 因 而 ,在 FE 模型 中 ,尽管 条 件 均 值 是 不 可 识别 
的 ,但 是 识别 边际 效应 


B=9El y, | cy Kis |/ 9X 


却 是 可 能 的 。 例 如 ,一 旦 控制 个 体 效 应 ,识别 额外 增加 受 教 育 年 限 的 工资 效应 是 可 
能 的 ,即使 个 体 效 应 与 条 件 均值 均 是 不 可 识别 的 。 

在 短 面 板 中 ,FE 模型 仅仅 允许 边际 效应 9EL y; [cx ax 的 识别 ,以 至 于 仅 
对 时 变 回 归 元 才 可 识别 ,所 以 例如 种 族 或 性 别 的 边际 效应 是 不 可 识别 的 。RE 模型 
允许 对 6 的 所 有 分 量 以 及 EL yi |x | 的 识别 ,但 重要 的 RE 假设 为 :ELci |xi 是 常 
值 ,在 众多 微观 经 济 计 量 应 用 中 被 认为 是 站 不 住 脚 的 。 


21.2.2 面 放 数据 信 计 值 


现在 ,我 们 引进 几 个 广泛 使 用 的 8 面板 数据 估计 量 , 进 一 步 详细 内 容 由 21. 5 一 
21. 7 节 提 供 。 这 些 估计 量 会 在 所 用 数据 是 横 截 面 的 还 是 时 间 序 列 变 异 程度 方面 
不 同 ,而 它们 的 性 质 则 会 依照 固定 效应 模型 是 否 合 适 模型 而 变化 。 

回归 元 zi 可 能 是 时 常 值 的 (time-invariant) ,或 者 是 时 变 的 (time-varying) , 满 
足 zz 二 zi 对 于 t 二 1,…, 丁 。 对 于 一 些 估 计量 ,尤其 是 下 面 所 定义 的 组 间 估 计量 与 
一 阶 差分 估计 量 , 仅 有 时 变 回 归 元 的 系数 是 可 识别 的 。 

混合 OLS 

混合 OLS 估计 量 可 通过 对 不 同 ; 与 上 本 放 成 具有 NT 个 观测 值 的 长 回归 ,并 
利用 OLS 进行 估计 

ya =a+xBHu, t=1l,,N, t=1,.,T 

而 狭 得 。 当 Cov| wi ,Xi | 二 0 时 ,为 了 一 致 性 ,要 么 六 一 co 要么 工 一 co。 

如 果 混 合 模型 (21. 1) 合 适 , 并且 回 归 元 与 误差 项 不 相关 ,那么 很 明显 ,混合 
OLS 估计 量 是 一 致 的 。 然 而 ,建立 在 iid 误差 基础 上 的 一 般 OLS 方差 矩阵 此 处 是 
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不 适宜 的 ,因为 给 定 个 体 时 误差 对 不 同 的 t 几乎 一 定 是 正确 相关 的 。NT 个 相关 观 
测 值 的 信息 就 没有 NT 个 独立 观测 值 的 多 。 

为 了 认识 这 种 相关 性 ,注意 到 ,对 于 给 定 的 个 体 , 我 们 认为 所 有 时 间 上 的 > 具 
有 很 大 相关 性 ,所 以 Cor| yi; yj 是 很 大 的 。 其 至 在 包括 一 些 回 归 元 之 后 ， 
Corl wi ,wi 可 能 仍 是非 零 的 ,并 且 它 经 常 是 相当 大 的 。 例 如 ,如 果 模 型 过 高 预测 
了 一 年 的 个 体 工资 ,那么 它 也 可 能 过 高 预测 了 同一 个 体 在 其 他 年 份 的 工资 。RE 模 
型 考虑 到 这 种 相关 性 ,由 式 (21. 6) 知 ,对 于 上 天 ss, 有 CorlLzi ,Uis |=os /Lo +oe |。 

通常 的 OLS 输出 均 把 工 个 年 份 中 的 每 一 个 处 理 成 独立 的 信息 ,但 是 给 定 正 误 
差 相 关 性 时 ,信息 内 容 就 比 这 要 少 得 多 。 这 会 导致 对 佑 计量 准确 性 的 过 高 评估 , 认 
为 它 是 非常 高 的 ,正如 21. 3. 3 节 所 阐明 的 ,而 正式 证 明 由 21. 5. 4 节 给 出 。 因 此 ， 
每 当 OLS 应 用 于 面板 背景 下 ,人 们 需要 运用 许多 修正 是 可 行 的 ,这 要 依赖 于 相关 
性 、 对 误差 所 假定 的 异 方差 性 结构 以 及 面板 是 短 的 还 是 长 的 (参见 21. 5 节 )。 

如 果真 实 模型 是 固定 效应 模型 ,那么 混合 OLS 估计 量 是 非 一 致 的 。 为 了 理解 
这 一 点 ,把 模型 (21. 3) 重 新 写成 


Vi 一 g 十 Xi 十 (ai 一 w 十 s， ) 


于 是 ,如 果 个 体 效应 w 与 回归 元 x 是 相关 的 ,那么 办 对 zx 的 混合 OLS 回归 及 截 
距 姓 致 了 如 的 非 一 致 佑 计量, 因为 这 类 相关 性 绚 含 着 ,综合 误差 项 ( a; 一 a 十 ei ) 与 
回归 元 相关 。 

总 之 ,如 果 常 值 分 数 模型 或 随机 效应 模型 是 合适 的 ,那么 混合 OLS 就 是 适宜 
的 ,只 是 面板 修正 标准 计 差 与 1 统计 量 必须 用 于 统计 推断 中 。 如 果 固 定 效应 模型 
是 合适 的 ,那么 混合 OLS 是 非 一 致 的 。 

组 间 估 计量 

混合 OLS 估计 量 使 用 了 既 有 时 间 变 化 又 有 横 截 面 单位 变化 来 估计 6。 

在 短 面板 中 ,组 间 估 计量 只 是 使 用 横 截 面 单 位 变化 。 以 特定 个 体 效 应 模型 
(21. 3) 开 始 。 一 旦 对 所 有 年 份 加 以 平均 ,得 到 5; 二 a 十 XB 十 e; ,这 能 重新 写成 组 间 
模型 ， 

yi—=at XB (a—ate), i=1l,,N (21.7) 


其 中 ,5 二 TT 12 ye: 二 T 1%en, MX = T oe。 

组 间 估 计量 (between estimator) 是 出 自 3; 对 截 距 及 x; 回归 的 OLS 佑 计量。 它 
使 用 了 各 个 不 同 个 体 之 间 的 变化 ,并 且 是 横 截 面 回归 的 类 似 形 式 , 即 工 王 1 时 的 特 

如 果 式 (21.7) 中 回归 元 X 与 综合 误差 (a; 一 a 十 i ) 是 独立 的 ,那么 组 间 估 计量 
是 一 致 的 。 这 将 是 常 值 系 数 模 型 与 随机 效应 模型 的 情况 。 与 之 相 比 ,对 于 周 定 效 
应 模型 来 说 ,组 间 估 计量 是 非 一 致 的 ,因为 a; 被 假定 成 与 x 相关 ,从 而 与 X; 相关 。 

组 内 估计 量 或 国定 效应 估计 量 

组 内 估计 量 不 同 于 混合 OLS 佑 计量 或 组 间 估 计量 , 它 探讨 面板 数据 的 特殊 
性 。 在 短 面 板 中 , 它 测算 了 特定 个 体 回归 元 与 其 时 间 均 值 离 差 和 特定 个 体内 变量 
与 其 时 间 均 值 离 差 之 则 的 关系 。 这 是 利用 不 同时 间 上 数据 变化 而 完成 的 。 


如 ff 线性 面板 模型 :基础 


mm 


特别 地 ,以 特定 个 体 效 应 模型 (21. 3) 开 始 研究 ,该 模型 可 髓 套 在 式 (21. 1) 中 ， 
作为 a; 二 a 的 特殊 情况 。 于 是 ,对 时 间 加 以 平均 ,得 到 5; 二 a; 十 十 E;。 当 消 掉 了 
a; 项 , 式 (21. 3) 中 的 yi 去 减 这 个 均值 ,得 出 组 内 模型 (within model): 


yi — yi;—= (XN) Be —é;), i 二 ],*"…,NN， t 一 ]，… (21. 8) 


组 内 估计 量 (within estimator) 是 式 (21. 8) 的 OLS 估计 量 。 该 估计 量 的 特性 
是 ,在 固定 效应 模型 中 它 可 以 得 到 6 的 一 致 估计 值 ,而 混合 OLS 与 组 间 估 计量 则 
不 能 。 

由 21. 6 节 知 ,组 内 估计 量具 有 几 种 解释 。 它 称 为 图 定 效应 佑 计量 ,因为 如 打 
ua 是 固定 效应 且 误差 ex 是 iid 的 ,那么 它 是 8 的 有 效 信 计 量 。 本 章 关 注 于 把 固定 
”效应 处 理 成 可 以 被 忽略 的 元 余 参 数 (nuisance parameters) 的 文献 ,因为 关注 内 容 只 
是 对 6 的 估计 。 相 反 , 如 果 固 定 效应 成 为 关注 的 内 容 , 那 么 同样 可 以 对 它们 加 以 
估计 。 在 短 面板 中 ,个 体 a; 的 这 些 估计 是 非 一 致 的 ,尽管 就 重要 变量 而 言 ,它们 的 
分 布 与 其 变化 可 能 是 有 信息 价值 的 。 当 NN 不 是 太 大 时 ,一 种 可 供 选 择 的 且 较 简单 
的 计算 组 内 估计 量 的 方法 就 是 利用 最 小 二 乘法 虚拟 变量 估计 。 不 过 ,可 能 百 接 通 
过 yi 对 zi 与 N 个 个 体 虚 拟 变 量 的 OLS 回归 而 直接 估计 ,从 而 得 出 8 的 组 内 估计 
量 和 N 个 固定 效应 的 估计 值 (参见 21. 6. 4 节 )。 组 内 佑 计量 的 另外 一 种 解释 是 协 
方差 估计 量 。 最 后 , 求 特定 个 体 的 离 差 ,等 价 于 求 y; 与 %i 对 个 体 虚拟 变量 辅助 回 
归 的 残 差 ,然后 对 残 差 进行 研究 。 

组 内 估计 的 主要 局 限 是 ,时 常 值 回归 元 的 系数 在 组 内 模型 中 是 不 可 识别 的 。 
因为 如 果 z = 二 那么 去 二 Zi 所 以 (za 一 翅 ) 一 0。 许多 研究 都 在 探寻 对 时 不 变 问 
归 元 效应 进行 估计 。 例 如 ,在 面板 工资 回归 中 ,我 们 可 能 对 性 别 或 种 族 的 效应 感 兴 
趣 。 因 此 ,众多 实践 者 倾向 于 不 使 用 组 内 估计 量 。 混 合 OLS 估计 量 或 者 随机 效应 
估计 量 允 许 对 时 常 值 回归 元 系数 进行 估计 ,只 是 当 固 定 效 应 模型 是 正确 模型 时 , 随 
机 效应 佑 计量 则 是 非 一 致 的 。 

一 阶 差 分 估计 量 

一 阶 差分 估计 量 同样 利用 了 面板 数据 的 特定 。 在 短 面 板 中 , 它 测算 了 特定 个 
体 在 回归 元 上 单一 时 期 的 变化 与 特定 个 体 在 因 变 量 上 单一 时 期 变化 之 间 的 联系 。 

具体 地 讲 ,以 特定 个 体 效 应 模型 (21. 3) 开 始 研究 。 于 是 ,一 旦 滞后 单一 时 期 ， 
得 出 .Ji 一 1 一 省 十 1 十 ep o 当 消 挥 了 了 Ui; 项 ， 由 式 (21. 3) 的 yi 减 去 一 ,得 到 
一 阶 差分 模型 : 


yi — yin — Xs— Xi 1) DG 十 (ea 一 Ei 一 1 1 一 1]，…，, 八 ， 1 一 2 (21.9) 


一 阶 差 分 佑 计量 (first-difference estimator) 是 式 (21. 9) 的 OLS 估计 量 。 与 组 
内 估计 量 一 样 , 此 估计 量 在 固定 效应 模型 中 会 得 到 6 的 一 致 估计 量 , 尽 管 时 常 值 回 
归 元 的 系数 是 不 可 识别 的 。 若 ej 是 iid 的 , 则 对 于 TT>2, 一 阶 差 分 估计 量 就 没有 组 
内 估计 量 更 有 效 。 

随机 效应 估计 量 

随机 效应 估计 量 也 是 探讨 面板 数据 特性 的 佑 计量 。 
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以 特定 个 体 效 应 模型 (21. 3) 开 始 , 但 是 假定 随机 效应 模型 如 同 式 (21. 5) 一 样 ， 
其 中 ,a 与 sy 均 是 iid 的 。 虽 然 混 合 OLS 是 一 致 的 ,但 混合 GLS 将 是 更 有 效 的 。 
RE 模型 的 可 行 GLS 估计 量 ( 人 参见 4. 5. 1 节 ) 称 为 随机 效应 估计 量 , 它 可 从 变换 
模型 

好 一 笨 ; 一 (1 一 人)w 十 (xy 一 入 天) B+ vs (21. 10) 


的 OLS 估计 中 计算 出 ,其 中 , 凤 王 (1 一 1)ai 二 (ex 一 自 ) 是 渐 近 iid 的 ,而 和 A 关于: 


Ce 


1 一 1] i (21. 11) 
是 一 致 的 。21.7 节 提 出 了 式 (21. 10) 的 推导 ,以 及 估计 丈 与 c: 的 方法 ,从 而 给 出 
估计 4 的 方法 。 注意 到 ,二 0 对 应 于 混合 OLS,4 二 1 对 应 于 组 内 估计 ,而 且 当 
T->co 时 ,一 1。 这 是 6B 的 两 步 估 计量 。 

在 RE 模型 条 件 下 ,RE 估计 量 是 完全 有 效 的 ,尽管 其 有 效 性 提高 与 混合 OLS 
相 比 不 一 定 很 大 。 然 而 ,如 果 固 定 效应 模型 是 正确 模型 ,那么 RE 估计 量 是 非 一 
致 的 。 


21.2.3 面 芒 敌 健 统 太 推断 


各 种 面板 模型 包括 了 一 些 误差 项 ,这 些 误差 项 记 为 wu .ei 和 a;。 在 许多 微观 经 
济 计 量 学 应 用 中 ,有 理由 假定 对 于 不 同 i 误差 具有 独立 性 。 然 而 ,误差 潜在 是 : 
(1) 序列 相关 的 (给 定 ; 时 对 不 同上: 而 言 是 相关 的 ); (2) 异 方差 性 。 有 将 统计 推 斯 
要 求 对 这 两 种 因素 加 以 控制 。 

4.4.5 节 的 怀特 蜡 方 差 一 致 估计 量 很 容易 被 推广 到 短 面 板 上 ,因为 对 于 第 i 个 
观测 值 , 当 N 一 oo, 其 误差 方差 算 阵 具有 有 限 维 。 因 此 ,在 没有 假定 个 体内 误差 相 
关 特 定 函 数 形式 或 异 方差 性 条 件 下 ,可 获得 面板 稳健 标准 误差 。 利 用 GMM 的 更 
有 效 估计 量 , 则 推迟 到 22. 2. 7 节 讨 论 。 

一 种 至 关 重 要 的 发 现 是 ,许多 计算 机 软件 包含 面板 命令 ,其 计算 的 默认 标准 误 
差 均 假定 iid 模型 误差 ,从 而 导致 不 正确 推 新 。 特 别 地 ,就 yi 对 x 的 混合 OLS 回 
归 而 言 ,在 没有 对 个 体 效 应 进行 控制 时 ,很 可 能 CovLwi ,xj 盖 0, 对 于 上 天 s。 一 旦 
忽略 这 种 相关 性 ,非常 可 能 导致 低估 标准 误差 ,并 且 高 估 上 统计 量 。 正 如 21. 3 证 
曾 明 的 数据 例子 ,而 21. 5. 4 节 在 代数 形式 上 证 明了 这 一 点 。 尽 管 误 差 序 列 相 关 包 
含 固 定 特定 个 体 效 应 或 随机 特定 个 体 效应 ,并 能 得 到 简化 , 它 却 不 能 完全 被 史 除 。 
此 外 ,如 同 横 截 面 数据 通常 所 做 的 那样 ,人 们 需要 控制 潜在 异 方差 性 。 

面板 稳健 三 明治 标准 误差 

在 混合 回归 





Vi — 久 ,0 二 (21. 12) 
中 ,21. 2. 2 节 的 面板 估计 量 可 通过 8 的 OLS 估计 来 获得 ,其 中 ,各 种 不 同 面板 估计 
量 对 应 于 Vi 、 Wi 一 [1 Xi | 、 wi 的 各 种 不 同 变换 Vi 、\ Wi \ Wis o 关键 是 ,3 仅仅 是 
Vil9 ”9 yiT 的 已 知 图 数 , 对 于 WW, 与 下 来 说 ,有 类 似 情 部。 


如 了 线性 面板 模型 :基础 


i 


在 混合 OLS 的 最 简单 情况 下 ,不必 进行 变换 ,而 且 0 二 [a 8] 。 就 组 内 估计 量 
而 言 ,i 二 yi 一 yi Wi 一 (xz 一 天), 这 里 出 现 唯一 时 变 回 归 元 ,并 且 6 等 于 时 变 回 归 
元 的 系数 。 就 一 阶 差 分 估计 而 言 Di Yi Vil Wi (Kis Xi.s1), 同时 仅 有 时 
变 回 归 元 的 系数 是 可 识别 的 。 对 于 随机 效应 ,3 二 yi 一 人， 人 一 (Wi — AWw; )， 
0 二 La 8 ] 。 这 种 变换 能 引起 序列 相关 ,即使 基本 误差 是 不 相关 的 。 

一 种 简便 的 方法 是 ,对 于 给 定 个 体 时 ,对 不 同时 期 观测 值 进行 琶 放 表示 ,得 出 : 

y;— W.0 + 


其 中 ,y; 表示 上 面 例子 中 的 荆 X1 维 向 量 ,只 是 就 一 阶 差分 模型 而 言 , 它 表示 
(T 一 1)X1 的 ,而 W; 表示 TXg 阶 和 矩阵 ,或 者 就 一 阶 差分 模型 而 言 , 它 表示 
(T 一 1) Xxg 阶 算 阵 。 进 一 步 地 ,对 六 个 不 同 个 体 进行 到 放 , 得到: 


7 一 W6 十 1 
因此 ,OLS 估计 量 的 三 种 表达 式 是 : 
0 us 一 [WW]'W’y 


其 中 ,就 一 阶 差 分 估计 量 而 言 第 三 个 等 式 是 从 i 二 2 到 了 工 求 和 ,使 用 最 方便 的 表 
达 式 将 随 看 内 容 而 变化 。 

为 了 考虑 一 致 性 ,注意 到 如 果 模 型 被 正确 地 设 定 ,那么 经 过 通常 的 代数 运算 ， 
可 得 到 guos 王 bg 十 [LW'W]-IW' ,或 者 : 


N N 
Ous 一 6 十 | 22WW | > Wi 
i=1 i 二] 


给 定 对 不 同 i 具有 独立 性 ,一 致 性 的 根本 条 件 是 ELWi'i ] 一 0。 这 经 常 需要 比 
ELwi |wi j= 二 0 更 强 的 假设 。 充 分 假设 是 由 式 (21. 4) 给 出 的 强 外 生性 。 例 如 ,在 
比 强 外 生性 假设 更 强 的 假设 焉 进行 估计 ,会 允许 滞后 因 变 量 作 为 回归 元 ,参见 
第 22 章 。 

于 是 ,给 定 误差 对 于 不 同 ; 具有 独立 性 时 ,gus 的 渐 近 方差 是 ; 


N N N 
VL Oos) 一 | 2 WW, | 2) W: ELu,u; | Wi]W， | 2 WW, ] 
i 一 ] i 二 ] :一 ] 


在 这 种 面板 设置 背景 下 ,VL6ois] 的 一 致 估计 类 似 于 获得 VL6us] 的 一 致 估计 的 横 
截面 问题 ,而 该 VLOos ] 的 一 致 估计 对 未 知 形式 的 异 方差 性 而 言 是 稳健 的 。 唯 一 复 
杂 情 况 是 ,出 现 向 量 v; 而 不 是 出 现 纯 量 uj; ,倘若 面板 是 短 的 ,从 而 wu; 维 数 有 限 ,就 
不 会 产生 问题 。 

这 产生 混合 OLS 佑 计量 的 渐 近 方差 矩阵 的 面板 稳健 信 计 ,这 既 控 制 序 列 相关 
性 ,又 控 制 异 方差 性 , 它 由 
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N N N 
VIGus1= [2 WW DWhaaWwl WW (21. 13) 
一 一] i= 1 


给 出 ,其 中 , 届 二 筷 一 y; 一 W;8。 对 于 短 面板 情况 来 说 , 式 (21. 13) 中 的 估计 量 假定 对 
于 不 同 1 具有 独立 性 且 N 一 co, 否则 允许 VI wu | 与 Cov|[ wu; 9 wi | 随 t 和 s 而 变化 。 
其 等 价 表 达 式 是 : 


Vias] 一 [> Ww 2 2 2 WW Wi 2 DW Ww] 


其 中 ,zi 二 53; 一 Wiz0 。 这 个 估计 量 是 由 阿 雷 拉 诡 (Arellano， 1987) 针 对 国定 效应 估 
计量 提出 的 。 

如 果 命 令 具 有 聚集 稳健 标准 误差 选项 (参见 24. 5. 2 节 ) ,基于 式 (21. 13) 的 面 
板 稳健 标准 误差 可 通过 常规 的 OLS 命令 计算 出 来 。 由 于 此 聚集 建立 在 个 体 上 ,所 
以 对 于 个 体 i 来 说 ,选择 合格 者 (identifier) 作 为 从 集 变量 (cjuster variable)。 该 方 
法 用 于 获得 由 表 24. 1 给 出 的 面板 稳健 标准 误差 。“ 和 稳健” 标准 差 术语 能 引起 混淆 
混合 回归 做 出 的 一 种 普通 误差 是 利用 标准 稳健 标准 误差 选项 (参见 4.4.5 节 )OLS 
回归 (21. 12) 进 行 估计 。 不 过 ,这 仅 对 异 方 差 性 加 以 调整 ,而 在 实际 应 用 中 ,在 面板 
设置 背景 下 ,更 为 重要 的 是 ,对 个 体 误差 相关 性 进行 修正 。 另 一 个 普遍 误差 尽管 具 
有 较 小 影响 ,但 它 要 使 用 假定 同方 差 性 的 聚集 稳健 标准 误差 ,从 而 ELum] 对 不 同 
i 而 言 是 常 值 的 。 

面板 自助 法 标准 误差 

自助 法 提供 了 一 种 可 供 选 择 的 获得 面板 稳健 标准 误差 的 方法 。 其 关键 假设 
是 ,观测 值 对 不 同 i 而 言 是 独立 的 ,所 以 人 们 一 定 要 执行 自助 序 时 程序 ,该 程序 对 
于 i 进行 放 回 重新 抽样 ,并 且 使 用 给 定 个体 时 的 所 有 观测 时 期 。 对 于 数据 
{《yi,X;) ,i 二 1,… ,和 NN) ,这 会 得 到 B 个 伪 样 本 ,而 且 对 每 个 伪 样 本 ,人 们 实施 3 对 
冯 , 的 OLS 回归 ,得 出 B 个 估计 值 9,,6 二 1,…,B。 于 是 ,方差 矩阵 的 面板 自助 法 和信 
计 值 为 : 

Vaw[L6] — 有 (6, — 0)(6,—6) (21. 14) 


其 中 ,0 一 B“! ,0,。 此 自助 法 提供 了 没有 渐 近 的 精炼 (参见 11. 2. 2 节 )。 给 定 对 
不 同 ;而 言 的 独立 性 , 当 六 一 ce 时 ,估计 全 是 一 致 的 。 它 在 渐 近 形式 上 等 价 于 估计 
值 (21. 13) ,正如 横 稚 面 情 况 下 目 助 序 对 等 价 于 怀特 异 方差 一 致 估计 一 样 。 些 目 助 法 
确实 没有 提供 渐 近 精炼 ,尽管 具有 渐 近 精炼 的 自助 法 是 可 能 的 (参见 11. 6. 2 节 ) 。 

这 一 目 助 法 能 应 用 于 依 顿 于 对 不 同 ; 而 言 具 有 独立 性 且 NN -一 ce 的 任何 面板 估 
计量 ,包括 21. 5. 2 节 短 面板 的 混合 可 行 GLS 估计 量 。 关 键 是 要 仅仅 对 不 同 : 进行 
重新 抽样 ,而 不 是 既 对 不 同 i 又 对 上 进行 重新 抽样 。 

讨论 

在 个 体 层 面 上 ,对 误差 序列 相关 的 标准 误差 进行 修正 的 重要 性 不 能 过 分 强调 。 
目前 ,计算 机 软件 包 确 定 没 有 目 助 执行 这 一 点 。 伯 特 兰 、. 杜 弗 洛 以 及 马 拉 内 和 森 
(Bertrand，Duflo，and Mullainathan，2004) 在 差异 中 的 差分 估 讨 背景 下 (人 参见 
22.6 节 ), 午 述 了 标准 误差 计算 中 同 下 但 倚 的 结果 。 他 们 发 现 , 面 板 稳健 方法 与 面 
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板 自助 法 会 很 好 地 起 作用 ,即使 在 应 用 中 就 州 年 份 而 言 , 数 据 N( 州 的 个 数 ) 相 对 很 
小 ,而 渐 近 理论 则 使 用 N->oo。 

下 述 例子 (参见 21. 2 表 ) 同 样 表明 ,对 任何 序列 相关 与 自 相 关 的 标准 误差 进行 
修正 的 重要 性 ， 


21.3 线性 面板 例子 :小 时 与 工资 


万 动 经 济 学 的 一 个 重要 课题 是 ,劳动 力 供给 对 工资 变化 的 响应 。 标 准 教科 书 
的 稻 动 供给 模型 提出 ,对 于 已 经 工作 的 人 员 来 说 ,工资 提高 对 劳动 供给 的 效应 是 含 
混 不 清 的 ,收入 效应 导致 更 少 工作 弥补 了 更 多 工作 方向 上 的 替代 效应 。 

对 成 年 男性 进行 横 和 截面 分 析 发 现 , 对 工时 具有 相对 很 小 的 反应 。 然 而 ,一 种 可 
能 情况 是 ,这 种 关联 是 虚伪 的 ,只 是 反映 了 不 可 观测 工作 意愿 越 强烈 , 正 向 联系 的 
工 换 就 越 高 。 在 不 可 观测 工作 意愿 是 时 常 值 的 假设 下 ,面板 数据 分 析 就 能 控制 这 
一 点 。 例 如 ,组 内 佑 计量 通过 测算 超过 平均 水 平 ( 或 低 于 平均 水 平 ) 工 资 的 时 期 中 
个 体 工作 超过 平均 水 平 (或 低 于 平均 水 平 ) 时 数 的 程度 来 完成 此 项 任务 。 

数据 是 源 目 齐 利 亚 克 的 532 名 男性 1979 一 1988 年 10 年 期 间 的 数据 。 关 注 变 
量 是 Inhrs, 即 每 年 工时 数 的 自然 对 数 。 单 个 解释 变量 是 lnwg, 即 小 时 工资 的 自然 
对 数 。 我 们 考察 回归 模型 ， 

iInhrs;, =a; + BlInweg, 十 si 

其 中 ,在 某 些 模型 中 特定 个 体 效 应 a; 人 简化 成 a ,而 8 测算 了 劳动 供给 的 工资 弹性 。 
假定 误差 项 ej 对 不 同 i 而 言 是 独立 的 ,但 给 定 i 时 它 可 能 对 不 同 1 而 言 是 相关 的 。 
正如 提 太 的 那样 ,我 们 期 望 劳动 供给 弹性 8 是 小 的 且 正 的 。 

齐 利 亚 殉 (Ziliak, 1997) 男 外 包括 了 年 龄 的 二 次 项 孩子 数 以 及 有 病 的 指示 变 
量 。 对 B86 的 估计 值 及 其 标准 误差 而 言 ,这 些 回 归 元 与 年 份 虚拟 变量 所 得 出 的 结果 
相对 差异 很 小 ,为 简单 起 见 , 这 里 对 此 省 略 。 在 第 22 章 , 我 们 将 考察 更 一 般 模型 ， 
人 允许 jnwg 成 为 内 生变 量 ,同时 允许 Inhrs 的 洱 后 项 出 现在 回归 元 中 ， 


21.3.1 妆 据 构 括 


对 于 5 320 个 观测 值 ,lnhrs 与 Inwg 的 样本 均值 分 别 为 7. 66 与 2. 61, 列 含 着 
集合 平均 2 120 小 时 以 及 每 小 时 13. 60 美元 。 样 本 标准 差分 别 为 0. 29 与 0. 43, 这 
显示 工资 而 非 小 时 的 百分比 项 拥有 更 大 的 变异 性 。 

对 于 面板 数据 ,知道 变异 性 通常 是 否 针对 不 同 个 体 或 不 同时 间 而 存在 ,非常 有 
用 。 序 列 zx; 围绕 其 总 均值 的 总 变异 蚀 分 解 成 


[a 一 二,) 十 (Tz 一 到) 上 


Se ~N 1 


因为 向 量 积 项 之 和 为 0。 总 之 ， 本 这 产生 
了 组 内 标准 差 sw 与 组 间 标准 差 由 ,其 中 ， 
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以 及 : 


对 于 lnhrs 与 Inwg 来 说 ,它们 的 组 内 样本 标准 差 与 组 间 样 本 标准 差分 别 是 0. 22 和 
0.18, 以 及 0.19 和 0.39。 因 此 ,工资 总 变异 比 工 时 总 变异 更 大 一 些 , 这 归 因 于 个 体 
变异 比 其 工资 的 更 大 。 对 于 组 内 个 体 变 异 ,实际 上 工资 变异 和 微小 于 工时 变异 。 


21. 3.2 面 覆 激 据 信 计 量 的 比较 


表 21. 2 概括 了 21. 2. 2 节 曾 和 定义 的 标准 面板 佑 计量 应 用 于 这 些 数据 的 情况 ， 
还 有 三 个 不 同 的 标准 误差 估计 值 。 如 同 下 面 要 详 述 的 ,统计 推断 应 该 要 么 使 用 面 
板 稳健 的 标准 误差 ,要 么 使 用 面板 目 助 法 标准 误差 。 


表 21. 2 小 时 与 工资 :标准 线性 面板 模型 估计 量 


POLS 组 间 组 内 一 阶 差 分 RE-GLS RE- MLE 
a 7. 442 7. 483 7. 220 0. 001 7. 346 7. 346 
B 0. 083 0. 067 0. 168 0. 109 0. 119 0. 120 
稳健 se (0. 030) (0. 024 ) (0. 085) (0. 084) (0. 051) (0. 052) 
方 根 se [0. 030 ] [0. 019 [0. 084 ] [0. 083 ] [0. 056 ] [0. 058 ]] 
默认 se {0. 009) {0. 020)} {0. 019)} {0. 021} {0. 014)} {0. 014)} 
R? 0. 015 0. 021 0. 016 0. 008 0. 014 0. 014 
RMSE 0. 283 0. 177 0. 233 0. 296 0. 233 0. 233 
RSS 427. 225 0. 363 259. 398 417. 944 288. 860 288. 612 
TSS 433. 831 17. 015 263. 677 420. 223 293. 023 292. 773 
gs 0. 000 0. 181 0. 161 0. 162 
oO 0. 283 0. 232 0. 233 0. 233 
A 0. 000 一 1. 000 一 0. 585 0. 586 
N 5 320 532 5 320 4788 5 320 5 320 


a 列 出 Inhrs 对 lnwg 的 混合 OLSCPOLS) .组 间 .组 内 .一 阶 差分 .随机 效应 (RE)IGLS 以 及 MLE 线性 回 
上 归 。 圆 括号 内 数字 为 面板 稳健 的 斜率 系数 的 标准 误差 , 方 括号 内 数字 为 面板 自助 法 的 标准 误差 ,大 括号 内 数 
字 为 假定 iid 误差 的 默认 估计 值 。R? .均值 平方 误差 方 根 (RMSE) 、 残 差 平方 和 (RSS) .总 平方 和 (TSS) 和 样 
本 量 来 自 21. 2 节 给 出 的 适当 回归 。 参 数 是 式 (21. 11) 后 面 定 义 的 。 

"se 表示 标准 误差 。 


斜率 参数 估计 

斜率 参数 8 的 估计 值 对 各 种 不 同 估计 方法 而 言 是 不 一 样 的 。 使 用 仅 有 横 和 截面 
变 分 的 中 间 估 计 小 于 混合 OLS 估计 值 。 组 内 或 者 固定 数 应 估计 值 0. 168 远 远 大 
于 混合 OLS 估计 值 0.083 ,同时 利用 5%% 双 尾 检 验 统计 ,其 标准 误差 估计 为 0. 084 
与 0.085。 一 阶 差分 估计 值 也 较 大 于 混合 OLS 的 估计 值 ,只 是 一 阶 差 分 估计 值 相 
当 小 于 组 内 估计 值 ,这 同样 仅仅 使 用 了 时 间 原 则 变 分 , RE 估计 值 0. 119 或 0. 120 
位 于 组 间 估 计 值 与 组 内 估计 值 之 间 , 这 是 人 们 所 希望 的 ,因为 可 以 证 明 ,RE 佑 计 值 
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是 组 间 估 计 值 与 组 内 估计 和 值 的 加 权 平 均 。 这 两 个 RE 估计 值 之 间 非 常 接近 。 而 方 
差 5 与 o? 的 估计 量 类 似 ,导致 了 回归 (21. 10) 中 的 相似 值 和 = 0. 585 与 1 一 0. 586。 
令 人 惊讶 的 是 ,RE 估计 值 有 效 性 不 如 混合 OLS 估计 值 ,这 也 预示 RE 模型 对 误差 
相关 性 建 模 失败 ，。 

哪 一 个 估计 值 备 受 人 们 青睐 呢 ? 在 所 有 模型 (混合 的 、RE 以 及 FE) 中 ,组 内 估 
计量 与 一 阶 差分 估计 量 都 是 一 致 的 ,而 在 固定 效应 模型 下 其 他 估计 量 是 一 致 的 。 
因此 ,最 稳健 的 估计 值 是 组 内 估计 值 0. 168 或 一 阶 差 分 估计 值 0. 109。 不 过 ,利用 
这 些 更 稳健 的 佑 计量 会 产生 有 效 性 损失 ,从 组 内 标准 误差 0. 83 到 一 阶 差分 标准 误 
差 0. 85, 都 非常 大 于 源 自 混合 OLS 与 RE 估计 值 的 那些 误差 。 正 式 豪 斯 曼 检 验 
(参见 21. 4. 3 节 的 详细 内 容 及 讨论 ) 能 用 于 检验 个 体 效 应 是 否 是 固定 的 。 考 虑 到 
此 例 估 计 相 对 含糊 不 清 , 尽 管 FE 估计 与 RE 估计 之 间 差 异 很 大 ,但 豪 斯 曼 检验 没 
有 拒绝 随机 效应 的 零 假 设 。 因 而 ,这 里 可 使 用 更 有 效 的 随机 效应 估计 。 随 机 效应 
估计 的 另 一 个 优点 是 , 它 允 许 对 时 常 值 估计 量 的 系数 进行 估计 。 

标准 误差 估计 

现在 ,我 们 转 到 标准 误差 估计 的 比较 上 ,由 表 21. 2. 3 知 ,建立 在 面板 稳健 标准 
误差 的 基础 之 上 ,该 标准 误差 允许 对 给 定 个 体 而 言 不 同时 期 的 误差 是 相关 的 ,同时 
拥有 随 不 同 个 体 而 变化 的 方差 与 协 方差 。 同 样 地 ,正如 后 面 几 节 所 阐述 的 ,为 了 解 
释 损 失 N 十 K 个 而 不 是 KK 个 自由 度 , 需 要 估计 量 建立 在 平均 偏差 诸如 式 (21. 8) 与 
式 (21. 10) 基 础 上 的 标准 误差 。 | 

第 一 个 标准 误差 估计 是 通过 由 式 (21. 13) 给 出 的 面板 稳健 方法 计算 ,而 第 二 个 
标准 误差 则 是 通过 由 式 (21. 14) 给 出 的 具有 500 次 复制 的 面板 自助 法 进行 计算 。 
为 了 简 涪 起 见 , 这 些 估计 值 称 为 面板 稳健 的 ,尽管 它们 对 异 方差 性 同样 是 稳健 的 。 
这 两 个 估计 值 非常 接近 ,除了 随机 效应 模型 中 的 面板 稳健 标准 误差 被 低估 之 外 ,这 
是 因为 它们 是 用 回归 (21. 10) 来 进行 计算 的 ,计算 中 忽略 了 入 上 的 估计 误差 。 

第 三 个 标准 误差 估计 是 标准 默认 的 计算 机 输出 ,这 样 的 输出 是 建立 在 iid 误差 
假设 之 上 。 在 此 例 中 ,正确 估计 的 标准 误差 显著 地 是 默认 标准 误差 的 3 一 4 倍 。 一 
个 例外 是 组 间 信 计量 ,由 于 它 仅仅 使 用 横 截面 变异 ,所 以 该 估计 量具 有 只 需 对 异 方 
差 性 加 以 修正 的 标准 误差 。 

例如 ,对 于 8 的 混合 OLS 佑 计量, 其 默认 标准 误差 是 0. 09, 得 到 不 正确 的 1 统 
计量 9.07。 面 板 稳 健 标准 误差 非常 大 ,为 0. 30, 得 到 的 正确 上 统计 量 则 相当 小 ,为 
2. 83。 软 认 标 准 误 差 假 定 对 于 给 定 i 时 模型 误差 对 不 同上 具有 独立 性 ,可 是 时 间 上 
它们 可 能 正 相 关 。 这 种 错误 假设 高 佑 了 其 他 时 期 的 好 处 ,从 而 得 到 标准 误差 向 下 
但 傈 (参见 21. 5.4 节 )。 男 外 ,忽略 误差 上 的 异 方 差 性 同样 会 导致 偏 倚 , 尽 管 此 偏 
俩 位 于 两 者 之 中 的 任 一 方向 上 。 对 于 这 些 数 据 来 说 ,控制 异 方差 性 失败 也 会 给 予 
大 的 向 下 偏 倚 :控制 异 方差 性 而 不 是 对 给 定 i 时 不 同 t 的 相关 性 的 pros 标 准 误差 
是 0. 020。 对 于 其 他 数据 来 说 ,对 异常 差 性 的 修正 通常 没有 对 面板 相关 性 修正 那 
样 重要 。 

对 于 组 内 估计 量 与 组 间 估 计量 ,包括 a; 项 ,应 该 对 给 定 个 体 控制 不 同时 间 误 
差 上 的 某 种 相关 性 。 不 过 ,就 这 些 数据 而 言 ,面板 稳健 标准 误差 与 非 稳 健 标准 误差 


TT 


之 间 的 差异 仍然 很 大 ,部 分 归 由 于 额外 控制 异 方差 性 的 失败 ， 
很 明显 ,应 该 使 用 面板 稳健 标准 误差 。 


21. 3.3 图 形 从 术 


闻 行 问 归 、 组 间 回 归 以 及 固定 效应 (组 内 或 一 阶 差 分 回归 ) 的 图 形 比较 是 _ 利 
有 深刻 见解 的 方式 ， 尽管 这 样 的 图 形 在 面板 数据 回归 中 很 少 画 出 ,但 是 它们 极 容 
多 应 用 在 这 里 ,因为 仅 存 在 一 个 回归 元 

全 部 图 形 包括 利用 Lowess 光滑 元 (参见 9 6 五) 的 非 参数 回归 与 由 表 21. 2 给 
出 售 计 值 的 线性 回归 。 图 21. 1 画 出 ,全 部 年 份 中 所 有 厂商 (5. 320 观测 值 ) 的 Inhrs 
对 Inwg 的 图 形 。 该 图 显示 正 的 关系 , 除 端 点 之 外 大 致 为 线性 的 ,而 且 由 去 21. 2 
知 , 此 线 斜率 为 0. 083, 具 有 很 小 的 RR 一 0 015。 


混合 (整个 ) 回归 










年 小 时 对 数 


,ff 非 参 数 对 应 
| 线性 对 应 


0 | 2 3 4 5 
小 时 工资 自然 对 数 


图 21.1 小 时 与 工资 :混合 (整个 ) 回 归 . 男 出 年 度 工 时 自然 对 数 对 应 小 时 工资 自然 对 数 的 图 
形 。 数 据 是 1979~-1988 年 的 10 年 期 间 每 年 532 个 美国 男性 ， 





组 间 估 计量 (21.7) 是 yz 与 元 进行 回归 。 其 相应 的 关于 lnhrs - lnwg 的 数据 
图 形 ,已 由 图 21.2 给 出 ,再 次 表明 正 的 关系 ， 


给 间 了 回归 
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R75 
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] 
-~ 非 参数 对 应 
0 线性 对 应 










1 2 4 5 


3 
小 时 工资 自然 对 数 
21.2 小 时 与 工资 :组 间 回 归 ， 图 出 工时 自然 对 数 的 10 年 平均 值 对 应 532 个 小 时 工资 自然 
对 数 的 10 年 平均 值 的 图 形 。 样 本 与 图 21. 1 的 一 样 。 
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=- 


组 内 或 固定 效应 估计 量 (21. 8) 是 (yi 一 3) 对 (xi 一 元 ) 进 行 回 归 。 贺 21. 3 给 
出 了 有 关 (yi 一斑 十 了) 对 (zx 一 Zz; 十) 回归 的 图 形 ,其 中 ,y= 二 N12,3; 与 二 
N13,z,; 表示 y 与 x 的 总 均值 。 与 图 21. 1 相 比 , 它 表 明 对 个 体 值 进行 差分 , 极 大 
地 促使 Inwg 变异 性 范围 减少 ,而 ljnhrs 的 变异 性 减少 却 并 不 大 。 与 混合 OLS 情况 
相 比 ,其 斜率 表现 得 更 加 陡峭 ,并 由 表 21. 2 知 , 其 斜率 从 0. 083 增 大 到 0. 168。 
组 内 ( 周 定 效应 ) 回归 


年 小 时 对 数 





小 时 汀 资 自然 对 数 
21.3 ”小 时 与 工资 :组 内 (固定 效应 ) 回 归 。 利 用 532 名 男性 10 年 数据 画 出 工时 自然 对 数 
10 年 平均 偏差 对 应 小 时 工资 自然 对 数 10 年 平均 偏差 图 形 。 样 本 与 图 21. 1 的 一 样 。 
一 阶 差分 估计 量 (21.9) 是 (yi 一 ys-1) 对 (zi 一 xi,-1) 进 行 回归 。 其 关于 Inhrs - 
Inwg 数据 的 相应 图 形 由 图 21. 4 给 出 。 其 性 质 上 类 似 于 图 21. 3。 
一 阶 差分 回归 


年 小 时 对 数 





小 时 工资 自然 对 数 


21.4 ”小 时 与 工资 ;一 阶 差 分 回归 。 利 用 53 名 男性 10 年 数据 画 出 工时 目 然 对 数 的 一 阶 差 
分 对 应 小 时 工资 自然 对 数 一 阶 差分 图 。 样 本 与 图 21. 1 的 一 样 。 


前 面 分 析 的 绪论 是 ,利用 时 间 序 列 变异 得 出 的 对 工资 变化 的 响应 , 比 利 用 横 截 
面 变 寞 性 所 得 到 的 对 工资 变化 的 响应 要 大 一 些 ， 


21. 3.4 残 差 分 析 


考察 数据 与 残 差 的 自 相 关 模 式 具 有 意义 。 例 如 ,对 于 残 差 训 , 二 yi 一 来 说 ， 
其 在 时 期 > 与 时 期 t 之 间 的 目 相 关 计 算 为 Os —Csf vy CssCit St- 一] ,了 ,其 中 , 协 方 
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差 估计 c, 王 (CN 一 1 >;(2 一 到 7) 一 六 ) 而 六 王 NI 。 

表 21. 3 给 出 lnhrs 对 lnwg 的 混合 OLS 回归 之 后 的 残 差 自 相 关 。 关 于 2 一 9 
个 时 期 的 各 个 自 相 关 通 常 位 于 0.2 与 0, 4 之 间 。 豪 变速 率 非常 惕 ,而 且 自 相关 表 
现 出 更 接 近 于 随机 效应 模型 ,该 模型 假定 与 具有 指数 衰变 的 AR(1) 相 比 ， 
Cor| wi ,Ui | 为 常 值 ,对 于 上天 5。 


表 21.3 小 时 与 工资 :混合 OLS 残 姜 的 自 相关 

u79 u80 u81 u82 US3 u84 U85 u86 U87 u88 
ule79 1.00 
ufe80 0. 33 1.00 
ufe81l 0.44 0.40 1.00 
ufe82 0.30 0.31 0.57 1.00 
ufe83 0.2Z21 0.23 0.37 0.47 1.00 
ufe84 0.20 0.23 0.32 0.34 0.64 1.00 
ufe85 0.24 0.32 0.41 0.35 0.38 0.58 1.00 
ufe86 0.20 0.19 0.28 0.25 0.31 0.35 0.40 1.00 
ufe87 0.20 0.32 0.33 0.29 0.31 0.34 0.39 0.35 1.00 
ufe88 0.16 0.25 0.30 0.26 0.21 0.25 0.34 0.55 0.53 1.00 


* 注意 : 残 差 自 回归 是 来 自 532 名 男性 10 年 期 间 的 Inhrs 与 Inwg 的 混合 OLS 回归 。 此 自 回 归 缓 慢 

变 弱 。 

关于 回归 前 的 lnhrs 相关 非常 接近 于 那些 由 表 21. 3 给 出 的 情况 ,因为 二 ya 
作为 源 目 具有 尺 “三 0. 015 的 混合 OLS 的 不 好 的 解释 证 据 。 虽 然 关 于 回归 元 Inwg 
的 目 相 关 在 这 里 没有 男 出 ,但 它 更 大 一 些 , 其 范围 大 致 从 混 后 一 期 的 0.9 到 滞后 9 
期 的 0.7。 

源 目 组 内 回归 残 差 日 相关 已 由 表 21.4 给 出 。 如 果 最 初 式 (21. 3) 中 误差 6 是 
iid 的 ,那么 可 以 证 明 , 变 化 误差 6 一 &; 在 所 有 湾 后 上 具有 等 于 一 1/(T 一 1) 二 一 0.11 
的 目 相 关 。 有 一 些 违背 这 里 的 悄 况 ,尤其 是 对 于 第 一 济 后 期 来 说 , 它 电 是 正 的 。 


表 21.4 小 时 与 工资 :组 内 回归 残 差 和 目 相 关 ” 

u79 u80 u8l u82 u83 u84 U85 u86 u87 u88 
ufe79 1.00 
ufe80 0. 10 1. 00 
ufe81 0. 21 0. 08 1. 00 
ufe82 0.00 一 0.04 0. 26 1.00 
ufe83 ”一 0.26 一 0.27 一 0.21] 0.01 1. 00 
ufe84 ”一 0.26 一 0.27 一 0.30 一 0. 20 0. 32 1. 00 
ufe85 一 0.18 一 0.10 一 0.11 一 0.17 一 0. 16 0. 17 1. 00 
ufe86 ”一 0. 19 一 0.25 一 0.26 一 0.27 一 0.17 一 0.14 一 0.08 1. 00 
ufe87 ”一 0.15 一 0.05 一 0.16 一 0.20 一 0.24 一 0.21 一 0.09 一 0.09 1.00 
ufe88 ”一 0.17 一 0.11 一 0.14 一 0.18 一 0.38 一 0. 31 0. 13 0.24 0.24 1.00 


。 残 差 自 相关 来 自 532 名 男性 10 年 期 间 的 Inhrs 与 Inwg 组 内 (固定 效应 ) 回 归 。 


源 自 随机 效应 回归 残 差 自 相关 相当 类 似 于 由 表 21. 4 给 出 的 那些 固定 效应 情 
形 。 源 自 一 阶 差分 回归 的 残 差 日 相关 在 性 质 上 类 似 于 以 下 理论 结 朱 :如 有 打 最 初 式 
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(21. 3) 中 误差 是 iid 的 ,那么 变换 误差 e 一 et 1 在 滞后 一 个 时 期 具有 自 相 关 0. 5, 而 
在 其 他 浪 后 时 期 日 相关 为 0。 


21.4 国定 效应 与 随机 效应 模型 


固定 效应 模型 的 优点 是 ,允许 研究 者 使 用 面板 数据 在 较 弱 的 假设 条 件 ( 将 在 
21. 4. 1 节 站 述 ) 下 建立 因果 关系 ,与 之 相 比 ,在 不 含有 固定 效应 的 模型 (比如 混合 
模型 和 随机 效应 模型 ) 中 ,利用 横 截面 数据 或 面板 数据 建立 因果 关系 , 则 需要 较 强 
的 假设 条 件 。 

在 一 些 研 究 中 ,因果 关系 是 清晰 明确 的 ,所 以 随机 效应 可 能 是 适宜 的 。 在 可 控 
实验 中 ,比如 源 自 各 种 不 同 数量 的 肥料 用 于 不 同 田 地 的 谷物 产量 ,其 因果 关系 是 清 
楚 的 。 在 另 一 些 情 况 下 ,为 了 测算 相关 程度 ,使 用 随机 效应 分 析 就 足够 了 , 而 确定 
因果 关系 则 要 采用 其 他 方法 做 进一步 研究 。 吸 烟 对 肺癌 的 影响 就 是 一 个 例子 。 不 
过 ,经 济 学 家 却 与 众 不 同 地 偏爱 固定 效率 方法 ,因为 这 尽管 依赖 观测 数据 ,但 人 们 
希望 测算 因果 关系 。 

在 实际 应 用 中 ,固定 效应 模型 拥有 几 个 弱点 。 对 任何 时 常 值 回归 元 ,比如 性 别 
指示 变量 的 系数 进行 估计 是 不 可 能 的 ,因为 它 被 入 列 特定 个 体 效 应 中 。 而 时 变 回 
归 元 的 系数 是 可 估计 的 ,只 是 如 果 回 归 元 的 大 部 分 变异 是 横 截面 的 而 不 是 随时 间 
变化 的 ,那么 这 些 估计 值 可 能 非常 不 精确 。 对 条 件 均 值 进行 预测 是 不 可 能 的 ,不 
过 , 仅 有 由 时 变 回 归 元 变动 而 引起 的 条 件 均值 变化 则 可 以 预测 。 在 含有 固定 效应 
的 非 线性 模型 中 ,甚至 对 时 变 回 好 元 的 系数 很 难 加 以 识别 ,或 者 在 理论 上 不 可 能 进 
行 识 别 。 鉴 于 这 些 原 因 ,经 济 学 家 还 是 运用 随机 效应 模型 ,即使 因果 解释 无 法 得 以 
保证 。 


21. 4.1 夯 征 区 应 例子 


考虑 计算 机 使 用 对 工资 的 影响 。 几 个 横 截 面 研究 中 ,最 著名 的 是 由 元 鲁 格 
(Krueger，1993) 与 迪 纳 多 和 皮 施 克 (DiNardo and Pischke，1997) 研 究 的 那些 例 
子 , 他 们 发 现 , 甚 至 在 控制 许多 决定 工资 因素 诸如 教育 .年 龄 .性 别 . 行 业 以 及 职业 
之 后 ,工作 中 使 用 计算 机 与 实际 较 高 工资 相关 联 。 正 如 由 迪 纳 多 和 皮 施 克 (DiNar- 
do and Pischke, 1997) 所 强调 的 ,如 有 果 回 归 元 与 误差 项 相关 归 因 于 内 生 行 或 省 略 变 
量 而 引起 。 那 么 ,这 不 一 定理 含 因果 关系 。 

具体 地 讲 ,我 们 假定 模 截面 形式 : 


Vi 一 x; 1 二 a; +e, 


其 中 ,y 表示 工资 自然 对 数 ,x 表示 个 体 特征 向 量 , 包 括 工作 中 使 用 计算 机 的 指示 变 
量 。 而 e 与 x 是 独立 的 。 一 种 复杂 情况 是 ,添加 了 不 可 观测 变量 a, 假定 a 与 工作 
时 使 用 计算 机 相关 ,进而 与 可 观测 回归 元 x 相关 ,尽管 x 的 成 分 诸如 职业 与 教育 而 
不 是 使 用 计算 机 可 部 分 地 控制 工作 时 使 用 计算 机 ,> 对 x 的 回归 产生 了 省 略 变 量 
偏 傈 ,从 而 导致 8 非 一 致 估计 ,因为 联合 误差 (a 十 e) 与 x 相关。 
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如 采 我 们 假定 不 可 观测 变量 a; 是 时 常 值 的 ,那么 围绕 该 问题 ,提出 一 种 面板 
数据 方法 ,a; 是 时 常 值 的 。 于 是 ,有 : 


/ 
Vi 一 Xi 十 a 二 ei 


其 中 ,e 再 次 与 x 无 关 , 而 a 与 X 是 相关 的 。 通 过 进行 一 阶 差 分 ,剔除 a; (参见 
21. 2.2 节 ) ,使 得 对 6 的 一 致 估计 成 为 可 能 。 就 运用 计算 机 例子 而 言 , 使 用 计算 机 
对 工资 的 因果 影响 可 通过 个 体 工资 变化 与 个 体 进 人 或 离开 计算 机 工作 之 间 的 关联 
加 以 测算 。 海 斯 肯 一 德 纽 和 施 密 特 (Haisken-DeNew and Schmidt，1999) 利 用 德 
国 面板 数据 ,发 现 没 有 影响 。 

这 种 固定 效应 面板 方法 需要 的 假设 比 横 截 面 分 析 所 需要 的 假设 更 弱 , 并 以 此 
决定 因果 关系 。 其 关键 性 假设 是 不 可 观测 的 w 是 时 常 值 的 ,而 不 是 更 一 般 形式 
ai。 人 在 计算 机 使 用 例子 中 ,假定 拥有 使 用 计算 机 工作 的 个 体 倾向 是 内 生 的 ,一 旦 我 
们 控制 了 可 观测 x ,此 倾向 w 对 工资 效应 的 不 可 观测 成 分 随时 间 变 化 是 常 值 。 

一 且 我 们 控制 时 常 值 不 可 观测 a; 与 可 观测 的 x ,在 涉及 个 体 工作 是 否 包括 使 
用 计算 机 的 特定 时 期 ,基本 上 被 假定 成 是 纯 随 机 的 。 

随机 效应 或 混合 面板 方法 确实 没有 类 似 性 质 。 相 反 , 由 于 它 假 定 a 是 iid [0,o2 ]， 
进而 写 x 无关, 所 以 它 的 假设 背离 了 最 初 关 注 的 a 与 xx 是 相关 的 内 容 。 倘 若 w 实 
际 上 与 x 是 相关 的 , 则 导致 了 非 一 致 参数 估计 ,而 倘若 a 是 时 常 值 的 , 当 a 与 x 相 
关 时 , 则 固定 效应 回归 元 是 一 致 的 ，。 


21. 4. 2 条 他 分 术 与 边际 分 析 


冉 定 效应 估计 是 条 件 分 析 测 算 一 旦 控制 个 体 效 应 a; 时 x%i 对 yi 的 影响 。 预 测 
在 所 用 的 特殊 样本 中 仅仅 对 个 体 而 言 是 可 能 的 ,而 且 甚 至 如 果 面 板 充 分 长 以 致 能 
一 致 地 估计 出 a; ,那么 预测 才 是 可 能 的 。 相 反 ,随机 效应 估计 是 边际 分 析 或 总 体 平 
均 分 析 的 例子 ,因为 个 体 效 应 作为 iid 随机 变量 可 通过 积分 去 掉 。 随 机 效应 估计 量 
能 够 用 于 样本 之 外 。 

倘 奉 真实 模型 是 随机 效应 模型 , 则 是 实施 条 件 分 析 还 是 实施 边际 分 析 将 随 应 
用 而 变化 。 磊 分析 是 针对 地 区 随机 样本 , 则 人 们 使 用 随机 效应 ,可 是 倘若 人 们 本 质 
上 对 样本 中 特定 范围 感 兴趣 ,就 使 用 固定 效应 估计 ,尽管 这 会 承受 有 效 性 损失 。 

然而 ,如 采 其 实 模 型 是 与 回归 元 相关 的 特定 个 体 效应 的 ,那么 随机 效应 分 析 不 
髓 有 意义 ,因为 随机 效应 佑 计量 是 非 一 致 的 。 可 供 选 择 的 其 他 估计 量 , 比 如 固定 效 
应 佑 计量 与 一 阶 差分 佑 计量 却 是 必需 的 。 由 于 在 微观 经 济 应 用 中 ,人 们 和 希望 决定 
因 采 关系 ,所 以 才 突 出 后 面 这 一 些 信 计量。 : 


21. 4.3 荧 斯 曙 枪 验 


如 果 个 体 效应 是 固定 的 ,那么 组 内 估计 量 By 是 一 致 的 ,然而 ,随机 效应 估计 量 


Gre 是 非 一 致 的 。 此 处 ,6B 意 指 时 变 回 归 元 的 系数 向 量 。 因 此 ,人 们 能 借助 于 利用 
这 些 估计 量 豪 斯 曼 检 验 之 间 是 否 存 在 统计 显著 差异 的 ,来 检验 阅 定 效应 是 否 存 在 。 
否则 ,能 够 使 用 具有 类 似 性 质 的 任何 其 他 估计 量 序 对 ,诸如 一 阶 差 分 与 混合 OLS。 


如/ 线性 面板 模型 :基础 


大 的 译 斯 曼 检验 统计 量 会 导致 拒绝 特定 个 体 效 应 与 回归 元 不 相关 的 零 假设 ， 
从 而 得 出 结论 :固定 效应 存在 。 避 免 利 用 固定 效应 模型 还 是 可 能 的 。 如 果 回 归 元 
与 特定 个 体 效 应 相关 是 由 省 略 变量 引起 的 ,那么 人 们 可 进一步 添加 回归 元 ,或 者 是 
时 变 的 或 者 是 时 常 值 的 ,然后 由 次 在 这 种 较 大 模型 中 执行 豪 斯 曼 检验 来 看 看 固定 
效应 是 否 仍 是 必需 的 。 即 使 这 类 相关 性 持续 ,但 利用 工具 变量 方法 估计 随机 效应 
模型 是 可 行 的 (参见 22. 4. 3 一 22. 4. 4 节 )。 

当 RE 是 完全 有 效 时 的 计算 

我 们 对 真实 模型 做 出 下 述 假 设 来 开始 , 即 真 实 模 型 是 随机 效应 模型 (21. 3) ,其 
中 ,ai iid [0,cz jj 与 回归 元 不 相关 ,并 且 误 差 6 iid L0 ,于 ]。 


于 是 ,估计 量 Bre 是 完全 有 效 的 ,因而 由 8. 3 节 知 , 豪 斯 曼 检 验 统 计量 简化 成 : 
也 二 (Bi.re — Bw) [LVL A.w1— VLBre 1! (Bi.re— Bw) 
其 中 ,Bi 表示 对 应 于 时 变 回 归 元 8 的 子 成 分 ,因为 这 个 成 分 可 通过 组 内 估计 量 得 
到 估计 。 这 个 检验 统计 量 在 零 假设 下 渐 近 地 服从 X (dim[B1]) 分 布 。 
萌 斯 曼 (Hausman，1978) 曾 经 证 明 , 这 种 检验 的 渐 近 等 价 形式 是 在 辅助 OLS 
回归 
Vir —Ay; 一 (1—A) pt Cx -一 人 Xl]; ) DG， 十 (Xj,, —X1) 7y 十 盖 ， (2 1] . 15) 


中 执行 沃 尔 德 检验 7 三 0, 其 中 ,zz 表示 时 变 回 归 元 ,而 A 已 由 式 (21. 11) 定 义 , 同 
时 仅 使 用 时 变 回 归 元 。 这 个 代数 结果 可 作 如 下 解释 。 特 定 个 体 效 应 模型 (21. 10) 
蕴含 着 ,vi 一 (1 一 a; 十 (ei 一 契 ;)。 随 机 效应 估计 量 实际 上 可 通过 式 (21. 15) 满 足 
~ 二 0 的 OLS 估计 来 获得 [参见 式 (21. 10)]。 相 反 , 如 果 固 定 效 应 设 定 是 有 效 的 ,a 
与 回归 元 相关 ,那么 误差 vw, 将 与 回归 元 相关 。 此 种 相关 性 产生 了 回归 元 的 另外 一 
些 函 数 , 比 如 (xx 一 无) 成 为 式 (21. 15) 中 统计 显著 的 变量 。 

当 RE 不 是 完全 有 效 时 的 计算 

如 果 a; 或 sx 不 是 iid 的 ,这 更 可 能 是 绝 大 多 数 微观 经 济 计量 学 数据 内 在 性 给 
出 的 异 方 差 性 ,那么 豪 斯 曼 检验 的 简单 形式 就 会 无 效 。 于 是 ,RE 估计 量 在 零 假设 
下 不 是 完全 有 效 的 , 因而 公式 中 的 表达 式 VL Pr] 一 V[Brs] 需 要 用 更 一 般 的 
V[LBre 一 Bw] 代 替 ( 参 见 8. 3 节 )。 

对 于 短 面板 而 言 ,此 方差 矩阵 能 用 对 不 同 ; 的 自助 法 重复 抽样 得 到 一 致 估计 
(参见 21. 2. 3 节 )。 因 此 ,面板 稳健 察 斯 曼 检验 统计 量 是 ， 


下 Robus 一 (GE 一 Mw) [Vpoot [Bi,rE — Awl]! (Bi 了 一 Bw) (21.16) 
其 中 : 
B 四 
Vpoo [Bire — Bw = > (6;, —$)(6,—6) 
p= |] 
b 表示 B 次 自助 复制 的 第 5 次 (参见 21. 2. 3 节 ), 而 6 一 Bire 一 BB,w。 这 个 检验 统 


计量 能 用 作 6 的 子 成 分 ,同时 使 用 可 供 选 择 的 一 些 估 计量 ,比如 Ci,ros 人 代替,e， 
以 及 局 ,mp 代 替 忆 ,w。 


否则 ,伍德 里 奇 C(Wooldridge，2002) 建 议 估 计 畏 助 OLS 回归 (21. 15) ,并 利用 
面板 稳健 标准 误差 检验 7 三 0。 如 果 效 应 是 随机 的 ,虽然 不 一 定 使 得 a; 与 sr 是 iid 
的 ,太一 (1 一 人 )o 十 (ez 一 怎 ;) 还 是 与 回归 元 不 相关 ,可 是 vi 不 再 是 渐 近 iid 的 ,所 以 
需要 使 用 聚集 稳健 标准 误差 。 如 果 效 应 是 固定 的 ,那么 误差 vi 与 回归 元 相关 , 导 
致 诸如 (xi 一 Xx) 回归 元 的 其 他 函数 的 显著 性 。 关 于 豪 斯 曼 检 验 这 种 稳健 的 辅助 回 
归 的 形式 ,人 们 通常 假定 vi 是 渐 近 iid 的 ,原因 在 于 做 出 通常 的 最 小 化 分 布 假设 。 
然而 , 当 RE 无 效 时 ,人 们 并 不 清楚 ,此 种 检验 实际 上 是 否 与 豪 斯 曼 检 验 相 符 。 

这 斯 曼 检 验 例子 

关于 lnhrs - lnwg 例子 ,估计 值 已 由 表 21. 21 给 出 ,利用 默认 标准 误差 ,对 FE 
估计 值 与 RE 估计 值 进行 比较 ,得 出 H 二 (0. 168 一 0. 119)?/(0.019? 一 0.014:)。 从 
而 得 出 H= 14>Xow(1) 王 3. 84, 所 以 拒绝 随机 效应 模型 。 

然而 ,这 种 检验 是 不 合适 的 。 因 为 此 例 的 通常 标准 误差 是 非常 向 下 偏 倚 的 ( 参 
见 21. 3.2 节 ), 所 以 统计 量 H 被 夸大 了 。 而 且 , 此 偏 倚 成 为 RE 估计 量 ,在 万, 条 
件 下 ,不 是 完全 有 效 的 信号 ,因此 需要 使 用 之 斯 曼 检验 的 更 一 般 形式 。 

由 辅助 回归 (21. 15) ,得 出 关于 y 的 面板 稳健 上 统计 量 为 1. 28, 从 而 H* = 
1. 282 王 1. 65, 导 致 在 5% 水 平 上 没有 拒绝 随机 效应 模型 ,即使 工资 弹性 估计 值 相 
” 差 0. 049 ,但 该 估计 非常 不 精确 ,其 差 并 不 是 统计 显著 的 。 注 意 到 ,如 果 使 用 关于 7 
的 非 稳健 上 统计 量 ,那么 刀 王 13. 69 ,接近 于 前 面 不 正确 的 察 斯 曼 检 验 统计 量 。 


21. 4. 4 园 寿 香 的 随机 区 应 模型 


随机 效应 模型 设 定 随 机 效应 a; 是 回归 元 的 独立 分 布 。 较 丰富 的 模型 在 思想 
上 更 接近 于 固定 效应 模型 , 它 放 松 了 这 一 假设 。 

德 拉 死 允许 面板 模型 (21. 3) 中 的 个 体 效 应 可 由 回归 元 的 时 间 平 均 来 决定 , 因 
而 ai 一 7 十 凤 , 其 中 ,wu 是 iid 的 ,于 是 ,在 这 种 扩展 模型 中 ,BB 与 zt 的 有 效 GLS 
估计 会 得 出 8 估计 量 ,该 估计 量 等 于 模型 (21. 3) 的 固定 效应 估计 景 。 通 过 比较 发 
现 , 错 误 设 定 iid 随机 效应 的 模型 (21. 3) 中 的 8 随机 效应 估计 量 将 是 非 一 致 的 。 

张 介 伦 (Chamberlain， 1982,1984) 考 察 了 随机 效应 的 更 为 丰富 的 模型 ,满足 
Cri = XN 十 *… 十 XT Tr 十 zww;, 即 回归 元 的 加 权 和 。 他 提出 通过 最 小 距离 方法 加 以 估 
计 ( 详 细 内 容 参 见 22. 2.7 节 ), 导 致 了 等 于 固定 效应 估计 量 的 6 的 估计 量 。 

更 一 般 地 ,24. 6 节 的 混合 线性 模型 与 分 层 线性 模型 允许 含有 和 随机 截 距 ,而 且 
可 包含 随机 斜率 参数 的 相当 一 般 模 型 。 面 板 数 据 的 贝 叶 斯 分 析 也 可 使 用 这 种 框 
染 。 详 细 内 容 参 见 22. 8 市 。 

在 线性 模型 中 , 奉 不 可 观测 个 体 效 应 与 回归 元 相关 , 则 运用 固定 效应 方法 。 在 
更 复杂 模型 中 ,例如 非 线性 模型 ,固定 效应 模型 并 不 总 是 可 估计 的 ,但 较 丰 富 随 机 
效应 模型 却 提 供 了 可 供 选 择 的 方法 。 


21.5 混合 模型 


混合 横 截 面 时 间 序 列 模型 (pooled cross-section time-series modeb) 或 常 系数 模 
型 (constant-coefficients model) 是 : 


夕 7 线性 面板 模型 :基础 


yi = xB us (21. 17) 


在 统计 学 文献 中 ,此 模型 称 为 总 体 平均 模型 (population-averaged model) , 因为 以 个 
体 效应 为 条 件 的 y;, 的 显 式 模 型 不 存在 。 相 反 , 任 何 个 体 效 应 都 可 以 用 隐 性 方式 加 
以 平均 去 掉 。 随 机 效应 模型 是 下 述 特殊 情况 :给 定 i 时 ,误差 后 关于 不 同时 间 是 等 
相关 的 (参见 21. 2. 1 节 )， 

一 旦 假定 没有 固定 效应 ,统计 推断 的 主要 复杂 情况 是 ,模型 普通 最 小 二 乘法 估 
计量 的 分 布 会 随 对 wi 假定 的 分 布 而 变化 。 在 短 面 板 中 ,能 利用 式 (21. 13) 获 得 面 
板 稳健 标准 误差 。 

然而 ,我 们 此 处 关注 利用 各 种 不 同 设 定 的 GLS 估计 ,包括 等 相关 性 ,因为 文献 
提出 了 关于 不 同时 间 与 个 体 的 xz 的 协 方差 结构 。 

虽然 我 们 关注 式 (21. 17) 即 不 含有 特定 个 体 固定 效应 的 混合 GLS 估计 ,但 本 
太 方 法 通常 能 用 于 21. 2. 3 节 变 换 模型 (21. 12) 的 混合 GLS 估计 。 


21. $5.1 混合 OLS，FGLS 以 及 WLS 估计 是 


利用 和 矩阵 记号 表述 极为 方便 。 对 于 给 定 个 体 , 将 不 同时 间 观 测 值 组 合 起 来 
定义 : : 
yi 一 WiOTU (21. 18) 


其 中 ,6 二 La B ] 表示 (天 十 1) X1 维 参 数 向 量 ,y; 与 到 分 别 表示 第 t 个 元 素 为 yi 与 
wi 的 TXxl 维 问 量 , WV， 表示 Tx (K 十 1) 阶 答 阵 ,其 第 1 行 表示 w=[1 Xx | 。 厂 
对 所 有 个 体 进行 合 放 ,得 到 ，: 


其 中 ,y 与 u 表 示 NTX1 维 同 量 ,例如 y 一 [LyY ynj, 而 W 表示 NTX(K 十 1) 阶 回 
归 元 矩阵 ,其 第 1 列 为 单位 向 量 。 我 们 假定 ELu| Wj] 二 0, 所 以 误差 是 严格 外 生 的 ， 
同时 定义 Q 二 ELuu | W]。 

这 个 模型 存在 几 种 可 能 的 最 小 二 乘法 估计 量 , 已 概述 在 表 21. 5 中 。 

第 一 ,混合 OLS 是 一 致 的 且 渐 近 正 态 的 。 然 而 ,在 面板 背景 下 , 不 可 能 有 
9 一 o TI, 所 以 除了 某 些 特殊 情况 ,诸如 当 所 有 回归 元 都 是 时 常 值 时 ,OLS 是 无 效 
的 。 更 为 重要 的 是 ,不 应 运用 oCW W) '! 通 常 方 差 估计 ,而 应 运用 式 (21. 13) 所 需 
的 那 种 面板 稳健 估计 。 

第 二 ,混合 可 行 GLS(pooled feasible GLS， 记 为 PFGLS) 是 一 致 的 且 完 全 有 效 
的 ,如 果 @@ 被 正确 地 设 定 ,同时 Q@ 关 于 9 是 一 致 的 。 面 板 文献 对 wu 结构 提出 了 某 
种 非常 大 范围 的 要 求 ,从 而 对 Q 结构 也 施加 某 种 要 求 , 这 些 已 经 被 并 人 分 别 由 
21. 5.2 广 与 21. 5.3 节 给 出 的 关于 短 面板 与 长 面板 的 回归 软件 包 之 中 。 

第 三 ,混合 加 权 LS(pooled weighted LS, 记 为 PWLS) 估 计量 防止 了 对 Q 的 错 
误 设 是 。 对 误差 方差 矩阵 @@, 该 估计 量 假 定 有 一 个 实用 和 矩阵 五 ,然后 进行 推断 , 甚 
至 当 呈 关中 时 ,该 推 新 仍 是 有 效 的 。 普 通 最 小 二 乘法 是 满足 也 一 o2TIw 的 例子 ,而 对 
允 的 其 他 选择 可 能 提高 有 效 性 。 

混合 OLS 估计 量 的 方差 矩阵 估计 需要 Q2, 使 得 CNT)-!W QW 一 致 地 估计 


微观 经 济 计 量 学 


RE 


(NT) "IW QW, 

对 于 短 面 板 数据 来 说 ,这 可 通过 直接 应 用 21. 2. 3 节 的 结果 执行 。 混 合 WLS 
估计 量 的 方差 矩阵 估计 需要 oo, 使 得 CNT)- WIIW 一 致 地 估计 
(CNT) -IIWDETIOZE 'W。 由 式 (21. 13) 给 出 的 关于 OLS 面板 稳健 估计 ,借助 于 替换 
WwW OZ !W, 或 者 等 价 地 借助 于 数量 ,Wi IE[uwwlw:]z2 WwW, 替换 给 定 不 同 
i 时 具有 独立 性 的 ;Wi 瑟 和 胡 新 五 1Wi ,而 适应 混合 WLS, 其 中 ,二 y; 一 Wi6。 否 
则 ,使 用 面板 自助 法 。 


21. 5.2 短 面 该 的 幅 老 方 孝 逢 降 


在 短 面 板 中 ,存在 几 个 时 期 但 众多 个 体 , 通 常 是 人 或 厂商 。 假 定 误差 对 不 同 个 
体 而 言 是 独立 的 ,因此 Cov[wi ,w= 二 0,i 了 关 ;。 在 此 情况 下 ,重新 运用 求 和 记号 非 
党 方便。 例如 ,电表 21. 5 给 出 的 PFGLS 估计 量变 成 : 


Betws 一 [2 Wi WwW: | 2) Wi Iy， (21. 20 ) 
其 中 ,Q; 关于 
z 人 2 一 ELuurl WwW,] (21. 21) 
是 一 致 的 ,而 中 是 非 对 角 的 ,因为 误差 对 给 定 个 体 而 言 可 能 对 不 同时 间 是 相关 的 。 
注意 到 ,Q; 必须 来 自 对 @; 设 定 模型 的 估计 ,而 且 不 能 使 用 Q 一 让 记 [参见 式 
(5. 88) 之 后 的 有 关 讨 论 j。 
表 21.5 混合 最 小 二 乘法 估计 量 及 其 渐 近 方差 
估计 量 公式 方差 矩阵 " 
混合 OLS: 和 os (WwwWy (WwW 'W QWW'W) 
混合 FGLS: ppros (WO WW WAYy WA!'W’ 
混合 WLS: bprms WEIW WEYy (WEIW-iWEIQF WWE!W) 
a 公式 是 式 (21. 19) 定 义 的 模型 y 一 W6 十 u, 而 误差 矩阵 为 由 。 
b 为 了 计算 POLS 与 PWLS 的 方差 矩阵 ,参见 正文 内 容 , 在 那些 情况 下 ,多 关于 不必 是 一 致 的 。 就 混 
合 AFGLS 而 言 , 假 定 全 关于 8 是 一 致 的 。 
等 相关 误差 
最 广泛 使 用 的 误差 结构 是 21. 2. 1 节 曾 前 述 的 随机 效应 模型 。 于 是 ,由 式 
(21.6) 知 , 具有 共同 对 角 元 素 c2 十 吧 ,以 及 共同 非 对 角 元 素 wz。 等 价 地 ,因为 9 
具有 共同 对 角 元 素 e 与 共同 性 对 角 元 素 po ,故此 误差 是 等 相关 的 。 实 施 AFGLS 
仅仅 需要 估计 o 与 c: ,或 者 估计 到 与 p( 参 见 21. 2.2 节 与 21.7 节 )。 
ARMA 误差 
一 种 可 供 选 择 的 误差 结构 是 假定 ARMA 误差 模型 。 例 如 ,AR(1) 误 差 模 型 设 
年 wi OUi,t—i 十 en ,其 中 ?Ei 是 iid 的 。 于 是 ,Cov[wi， ws j=pl 和 。 在 此 情况 下 ， 
当 误 差 之 间 的 时 期 数 增 大 时 ,误差 之 间 的 协 方差 就 下 降 了 。RE 模型 与 AR(1) 误 
差 模 型 的 比较 将 由 21. 5. 4 节 给 出 。 : 
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巴尔 培 吉 和 李 (Baltagl and Li，1991) 为 了 考察 含有 AR(1) 误 差 的 随机 效应 模 
型 ,将 两 种 误差 模型 结合 起 来 。 这 很 容易 推广 到 AR(p) 情 况 , 而 且 随 机 效应 模型 
中 关于 移动 平均 的 一 些 方法 以 及 ARMA 误差 目前 也 得 到 了 发 展 。 巴 尔 塔 二 
(Baltagi，2001, 第 5 章 ) 给 出 了 一 个 概括 。 

事 有 非 结构 化 自 相 关 的 同方 差 误差 

对 于 FGLS 估计 来 说 ,无 结构 化 自 相 关 的 同方 差 误差 ,做 出 工 X 工 阶 矩 阵风， 
对 不 同 ; 而 言 都 是 常 值 的 假设 , 则 短 面 板 数 据 实 际 上 不 需要 施加 诸如 由 RE 模型 或 
AR(1) 误 差 模 型 所 施加 的 更 多 绪 构 。 于 是 ,需要 估计 的 参数 “ 仅 有 ”T(CTT1)72 个 。 
于 是 ,@; 的 一 致 估计 是 @2;, 它 的 第 (4,s) 个 元 素 为 6 一 N22 witii;。 前 面 的 模 
型 同样 假定 了 同方 差 性 ,只 是 对 @ 设置 了 其 他 结构 。 

稳健 推断 

前 面 的 所 有 设 定 均 假 定 , 误 善 协 方差 对 不 同 个 体 而 言 都 是 相同 的 ,这 样 就 剔除 
了 蜡 方 差 型 。 倘 大 面板 是 短 的 ,人 们 仍然 能 使 用 上 面 的 约束 误差 方差 矩阵 模型 作 
为 混合 WLS 估计 的 基础 ,但 在 男 一 方面 获得 如 同 表 21. 5 之 后 讨论 的 稳健 标准 误 
差 。 否 则 ,使 用 第 22 章 阐 述 的 较 丰 富 的 混合 模型 进行 估计 。 

第 21 章 至 第 23 章 上 自始至终 保持 对 不 同 ;， 具有 独立 性 的 假设 ,尽管 倘若 对 相 
关 性 施加 结构 ,甚至 对 小 工 来 说 ,可 放松 上 述 假设 。 一 个 实例 是 关于 空间 相关 的 
明显 模型 ,这 里 的 空间 相关 涉及 地 区 面板 数据 ,比如 州 或 区 域 , 当 个 体 之 间 的 自然 
距离 增 大 时 ,其 相关 性 会 下 降 。 


21. 5.3 长 面相 误 帮 万 考 人 了 奏 


在 长 面板 中 存在 许多 时 期 ,但 具有 相对 很 少 的 个 体 。 如 果 个 体 观 测 单位 是 少 
数 几 个 地 区 之 一 ,诸如 州 或 地 区 或 厂商 ,那么 这 类 数据 便 出 现在 微观 经 济 计量 学 分 
析 之 中 ,但 为 了 将 推断 建立 在 Too 假设 的 基础 上 ,这 些 在 足够 多 时 期 上 都 是 可 观 
测 到 的 。 

对 于 给 定 个 体 来 说 ,其 不 同时 期 的 相关 性 可 利用 误差 的 ARMA 模型 来 引进 ， 
ARMA 模型 的 参数 允许 当 目 前 N 为 固定 且 TT 一 co 时 ,对 不 同 个 体 而 言 是 不 同 的 。 
例如 ,考察 具有 wi 二 oiuis-1 十 ei 的 AR(1) 误 差 ,其 中 6 ~ [0, o?] 表 示 异 方差 的 ， 
并 且 m 对 不 同 个 体 而 言 也 是 不 一 样 的 。 分 别 将 yi 对 wi 进行 回 归 , 就 每 一 个 个 体 
而 言 ,因为 T->oo ,利用 工 个 时 期 的 AR(1) 误 差 都 会 得 出 一 致 估计 值 6; 与 67。 从 
而 , 当 有 NT 个 观测 值 时 , 这 用 于 对 6 的 可 行 GLS 估计 。 详 细 内 容 , 参 见 克 门 塔 
(Kmenta，1986)。 这 个 模型 既 允 许 个 体 具有 异 方差 性 ,又 允许 对 给 定 个 体 来 说 具 
有 时 期 相关 性 。 佩 萨 兰 (Pesaran,2004) 提 出 了 借助 于 GLS 进行 估计 的 相当 多 的 
更 丰富 模型 。 

对 于 长 面板 ,引入 不 同 个 体 相 关 性 是 可 行 的 ,因此 对 于 ij,CovL ui ,zj 天 0， 
由 于 N 是 固定 的 , 且 渐 近 结 果 依 赖 于 T->co。 特 别 地 ,人们 能 像 前 面 一 样 满足 不 
同 个 体 之 间 独 立 性 假设 执行 混合 GLS 估计 ,但 要 利用 6. 4. 4 节 曾 简要 提 及 的 纽 韦 
和 韦 斯 特 (Newy and West，1987b) 方 法 计算 标准 误差 , 倘 看 序列 相依 性 充分 快速 
衰减 ,这 样 做 ,允许 出 现任 意 横 截面 相依 性 与 序列 相依 性 。 详 细 内 容 , 参 见 阿 震 拉 
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诺 (CArelljano，2003 ,第 19 页 ) 。 


21. 5.4 月 太 关 吝 考 的 避 同 


面板 数据 回归 模型 具有 下 述 误 差 , 对 给 定 个 体 而 言 经 常 具 有 不 同时 期 的 相关 
性 。 厂 没有 固定 效应 , 则 混合 OLS 回归 会 得 出 一 致 参数 估计 值 。 不 过 , 当 忽略 自 
相关 时 ,误差 相关 能 导致 混合 OLS 的 标准 误差 出 现 大 的 偏 倚 , 而 当面 板 长 度 增 加 
时 ,其 有 效 性 提高 相对 很 小 。 

就 单个 个 体 ( 因 此 ,N==1) 具 有 等 相关 而 言 ,对 基于 械 个 观测 值 的 对 y 均值 进行 
估计 来 说 ,分 析 起 来 特别 简单 。 于 是 ,y, 二 8 十 uw ,而 OLS 估计 量 是 样本 均值 ,所 以 8= 
y 二 12),y,。 该 OLS 估计 量具 有 真实 方差 VL[8] 二 VLy] 二 TT ?2 2,Cov[u ,wu]。 
右 假 定 等 相关 , 则 此 双 和 式 具 有 等 于 e 的 工 个 方差 ,以 及 等 于 oc2 的 TT(T 一 个 
协 方差 。 因 此 ,VL7 = 三 于 (1 二 (CT 一 Do)。 因 而 ,VL7 一 Tc 的 iid 结果 需要 
仿 助 乘 以 (1 十 o(C 了 一 1))? 加 以 扩大 而 得 到 修改 ,特别 地 , 当 o 一 1 时 ,VL3y 趋向 于 。 

对 于 各 种 工 与 p 值 , 表 21.6 给 出 关于 了 方差 的 相关 影响 ,这 里 ,为 了 简单 起 
见 ,我 们 正规 化 玫 三 1, 当 po 增 大 时 ,估计 准确 性 大 大 下 降 , 并 在 给 定 第 一 列 独 立 性 
假设 (为 了 简单 起 见 ,假定 oo 是 已 知 的 ) 条 件 下 ,VL5j] 估 计 值 远 远 低估 了 真实 方差 。 
此 外 ,对 于 o>0, 因 时 期 数 增 大 所 获得 的 准确 性 提高 远 不 及 因 独 立 数据 引起 的 准确 
性 提高 ,倍增 时 期 数 会 使 估计 量 方差 减 半 。 例 如 , 若 o 王 0.4, 则 5 个 时 期 数 的 估计 
量 方差 只 是 1 个 时 期 数 估计 量 方差 的 0. 52 倍 , 不 过 ,而 不 是 独立 数据 时 的 0. 2 倍 
这 一 更 小 情况 。 进 一 步 地 , 契 从 5 个 时 期 数 到 10 个 时 期 数 增加 1 倍 , 则 会 得 到 估 
计量 方差 从 0. 52 到 0. 46, 只 是 出 现 很 小 缩减 。 


表 21.6 含有 等 相关 误差 的 混合 OLS 估计 量 方差 


T 0 一 0.0 0 一 0. 2 0 一 0. 4 o 一 0.6 0 一 0. 8 p=1.0 
1 1. 00 1. 00 1. 00 1. 00 1. 00 1. 00 
2 0. 50 0. 60 0. 70 0. 80 0. 90 1. 00 
5 0. 20 0. 36 0. 52 0. 68 0. 84 1. 00 
10 0. 10 0. 28 0. 46 0. 64 0. 82 1. 00 


a 当 等 相关 误差 的 相关 po 增 大 时 ,给 出 了 混合 OLS 佑 计量 的 方差 ,对 于 具有 误差 方差 被 正规 化 为 1 的 唯 
一 截 距 覃 型 来 说 ,尽管 是 同方 差 的 ,但 假定 误差 是 相关 的 。 


对 于 更 一 般 的 具有 等 相关 误差 且 回 归 元 为 时 常 值 的 平衡 面板 回归 来 说 ,这 个 
结果 成 立 ,其 中 ,OLS 估计 量 的 真实 方差 是 假定 独立 误差 情 况 的 (1 十 p(CT 一 1)) 倍 
[参见 克 勒 克 (Kloek,1981) ]。 在 实际 应 用 中 ,还 会 包括 时 变 回 归 元 ,而 且 很 明显 ， 
非常 难以 获得 解释 结果 。 对 于 含有 截 趾 与 单个 时 变 回 归 元 的 回归 来 说 ,斯 科 特 和 
堆 尔 特 (CScott and Holt，1982) 证 明 ,斜率 系数 的 方差 扩大 了 (1 十 6o( 了 一 1)) 倍 ,其 
中 ,56; 被 认为 是 特定 个 体 z 的 自 相 关 的 估计 值 ,就 面板 数据 而 言 ,6: 往往 很 高 , 因 
此 仍然 存在 明显 的 扩大 。 这 些 结果 同样 可 应 用 于 聚集 数据 的 其 他 形式 ,更 详细 的 
内 容 将 在 24. 5. 2 节 论 述 。 

前 面 分 析 均 假定 等 相关 误差 , 即 RE 模型 的 性 质 。 相 反 , 若 误差 是 AR(1) 的 ， 
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则 增加 面板 长 度 会 有 很 大 好 处 。 于 是 , Cov[w,uj]= 二 po" 中 5g, 因而 ,VL[3] = 
T3060 [LT 二 2 《(T 一 s)p']。 例 如 , 当 p 二 0.8 时 ,对 于 T= 二 5,V[3] 二 0. 7202 ,而 对 
于 了 二 10, VLyj] 二 0. 540 ,这 均 小 于 满足 o 二 0. 8 等 相关 的 表 21. 6 中 相应 0. 84c 
与 0. 820? 的 值 ,但 仍 远 远 大 于 o 二 0.0 的 相应 0. 2c2 与 0. 1c2 的 值 。 

微观 经 济 计量 学 家 倾 喇 于 RE 模型 或 短 面 板 的 等 相关 误差 模型 ,如 同 第 24 章 
对 聚集 数据 派生 文献 所 阐述 的 。 例 如 ,考察 许多 家 庭 里 不 同 的 兄弟 姐妹 。 于 是 , 自 
然 假 定 同一 个 家 庭 中 不 同胞 亲 不 可 观测 因素 相关 性 ,对 于 不 同 兄弟 姐妹 均 是 一 样 
的 。 例 如 ,老大 与 老 二 之 间 的 相关 性 等 于 老大 与 老 三 之 间 的 相关 性 。 相 反 ,那些 利 
用 长 面板 数据 经 党 具有 时 间 序 列 背 景 ,并 很 自然 地 假定 相关 性 随时 间 而 下 降 , 得 到 
诸如 AR(1) 误 差 的 模型 。 

实际 上 ,决定 时 间 序 列 相 关 的 哪 一 种 模型 更 为 合理 ,这 要 依赖 数据 而 定 。 微 观 
经 济 计量 学 应 用 所 使 用 的 短 面 板 会 得 出 混合 OLS 残 差 自 相 关 ,在 性 质 上 类 似 于 由 
表 21. 3 给 出 的 那些 情况 。 这 些 比 较 接近 于 RE 模型 ,而 不 是 AR(1) 模 型 ,尽管 
ARMA(1, 1) 可 能 做 得 很 好 。 含 有 AR(1) 误 差 的 RE 模型 仍然 更 好 一 些 。 在 所 有 
情况 下 ,误差 相关 性 会 引起 信息 损失 ,通常 OLS 标准 误差 低估 了 真实 标准 误差 。 
对 于 短 面板 数据 ,人 们 能 将 推断 建立 在 面板 稳健 标准 误差 上 (参见 21. 2. 3 节 ), 而 
不 需要 设 定 误差 相关 模型 。 


21. 5.5 小 肝 与 工资 混合 CZS 例子 


表 21.7 给 出 于 lInhrs 对 Inwg 回归 的 模型 yi Qai 十 Bri 二 wi 的 一 系列 混合 
GLS 估计 值 ,以 及 与 之 有 关 的 默认 表 误差 与 稳健 标准 误差 。 
表 21.7 小 时 与 工资 :混合 OLS 与 GLS 估计 值 ， 





估计 量 POLS PFGLS 
误差 相关 没有 等 相关 AR1 一 般 的 
人 7. 442 1.346 1. 440 7. 426 
8 0. 083 0. 120 0. 084 0. 091 
稳健 se (0. 029 ) (0. 052) 《0. 037) (0. 050 ) 
自助 se | 0. 032 | | 0. 060 | | 0. 050 | | 一 
默 共 se {0. 009)} {0. 014} {0. 012) {0. 014) 


a 对 于 短 面板 , 若 假 定 对 于 不 同 i 具有 独立 性 且 同 分 布 的 ,同时 没有 固定 效应 ,lnhrs 对 Inwg 混合 OLS 
与 GLS 线 性 面板 问 归 。 混 合 GLS 估计 量 假 定 等 相关 的 或 随机 效应 误差 (equi) 、AR(1) 误 差 (AR(1)}) 或 者 没 
有 相关 性 结构 (一 般 情 况 )。 和 斜率 系数 的 标准 误差 若是 面板 稳健 的 ,用 圆 括号 表示 ;面板 自助 法 标准 误差 用 方 
括号 表示 ;而 假定 iid 误差 的 通常 默认 估计 则 用 大 括号 表示 。 

所 有 内 容 均 假定 误差 wi 对 不 同 i 是 独立 的 , 且 对 不 同 ; 是 同 分 布 的 ,然后 对 不 
同上 做 出 wi 相关 性 的 各 种 不 同 假设 。 

表 21.7 的 第 1 列 , 即 混合 OLS 佑 计量 ,重新 列 出 表 21. 2 的 第 1 列 内 容 : 混 合 
GLS 估计 假定 等 相关 ,由 表 21.7 第 2 列 给 出 。 这 些 均 与 表 21. 2 的 RE- GLS 列 
相 吻 合 ,因为 随机 效应 模型 殖 含 着 等 相关 误差 | 参见 式 (21.6) ]。 

混合 GLS 估计 假定 AR(1) 误 差 , 所 以 i OUn—i 十 er ,其 中 9 Ei 是 lid 的 ,这 由 
表 21.7 中 第 3 列 给 出 。 其 斜率 与 系数 估计 值 比较 接近 于 混合 OLS 估计 值 。 
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除 同 方差 性 之 外 ,对 误差 相关 没有 施加 结构 的 混合 GLS 估计 值 , 均 已 由 表 21.7 
第 4 列 给 出 ,因此 Cov[Lwi ,wj 二 6:。 于 是 ,给 定 很 小 T, 通 过 6 一 N12 wt 
可 一 致 估计 出 o ,对 于 所 有 的 1 与 ;。 这 再 次 接近 于 混合 OLS 估计 值 。 

由 表 21. 7 清楚 知道 ,应 该 使 用 面板 稳健 标准 误差 ,而 不 是 使 用 默认 标准 误差 ， 
这 里 假定 同方 差 性 ,并 且 正 确 地 设 定 序列 相关 模型 。 


21.6 国定 效应 模型 


国定 效应 模型 (fixed effects models) 设 定 : 
yi 0; tx +e (21. 22) 


其 中 ,特定 个 体 效应 aj ，…,an 测量 了 不 可 观测 异 质 性 , 异 质 性 可 能 与 回归 元 xy 相 
关 , 6 表示 K X1 维 向 量 , 而 且 以 误差 服从 iid [0,c 开始 讨论 。 

进行 估计 的 一 个 挑战 是 ,存在 NN 个 特定 个 体 效应 ,而 当 N->ce 时 ,这 N 个 特定 
个 体 效 应 会 增加 。 考 虑 到 应 用 目的 ,我 们 对 K 个 斜率 参数 8 最 感 兴趣 ,29 给 出 回 
归 元 变化 时 的 边际 效应 ， 因为 9E[ yi j/9x% = IN 个 参数 aa 9? “人 是 元 余 参 数 或 
非 主 要 参数 和 1](incidental parameters) ,但 它们 不 是 人 们 内 在 关注 的 内 容 。 不 过 ， 
它们 的 存在 会 潜在 地 阻碍 对 参数 6 进行 估计, 而 8 是 关注 内 容 。 

值得 注意 的 是 ,尽管 存在 这 些 元 余 参 数 , 但 线性 模型 存在 几 种 一 致 估计 B 的 方 
法 。 这 些 方法 包括 :(1) 组 内 模型 (21. 8) 的 OLS;(2) 对 NN 个 固定 效应 中 的 每 一 个 
部 具有 指示 变量 的 模型 (21. 2) 进 行 直 接 OLS 估计 ;(3) 组 内 模型 (21. 8) 的 GLS; 
(4) 以 个 体 均 值 5; 为 条 件 的 ML 估计 ,i 二 1,… ,NN;(5) 一 阶 差分 模型 (21. 9) 的 
OLS, 

前 两 种 方法 总 是 得 出 8 的 相同 佑 计量。 男 外 ,如 果 式 (21. 22) 中 的 ev 是 iid 
的 ,并 且 ss 一 WEL0, 吧 ,那么 第 三 种 方法 与 第 四 种 方法 也 将 是 一 样 的 。 对 于 了 2， 
最 后 一 种 方法 则 不 同 于 其 他 方法 。 在 非 线性 模型 里 ,这 种 等 价 性 经 常 不 成 立 , 这 将 
在 第 23 章 讨 论 。 

下 一 节 给 出 组 内 值 计量 的 基本 结果 。 当 回归 元 不 再 是 强 外 生 时 ,21. 6. 2 节 简 
述 一 阶 差 分 值 计量 ,该 估计 量 广泛 用 于 第 22 章 。 而 其 他 佑 计量 将 由 21. 6 节 的 其 
余部 分 加 以 阐述 ,一 些 读者 或 许愿 意 略 过 它们 。 


21.6.1 组 内 或 固定 戏 应 信 计 晶 


组 内 模型 可 通过 从 最 初 模型 中 减 去 时 间 平 均 模 型 交 一 w 十 尼 B 十 而 得 到 ， 
于 是 ， 


Vir — y= (xX, —X;) B+ (es —E;) (21. 23) 


因此 ,固定 效应 a 铁 噜 除 ,如 果 对 于 所 有 Xi 一 Xi 由 于 Xi 一 ;一 0, 所 以 时 常 值 回 
归 元 也 被 别 除 了 。 


C1] 又 称 为 偶发 参数 。 一 一 译 痢 注 
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利用 OLS 估计 ,得 到 组 内 估计 量 或 固定 效应 估计 量 Bw ,其 中 : 
= [DD 6 -aoc 一 和 人 > 总)ow 5 (21. 24 ) 


于 是 ,个 体 周 定 效 应 Ci 能 通过 : 
b=y—XBw, 一 1 和 N (21. 25) 

加 以 估计 ,估计 值 a; 关于 a; 是 无 偏 的 , 倘 硅 N 一 co, 它 就 是 一 致 的 ,因为 w 对 本 个 
观测 值 进行 平均 。 在 短 面板 中 ,估计 值 a; 是 非 一 致 的 ,但 a 关于 B 却 是 一 致 的 。 
可 以 认为 ,a; 是 元 余 参 数 或 辅助 参数 ,幸运 的 是 ,为 了 获得 更 重要 参数 8 的 一 致 估 
计 值 ,而 不 要 求 一 致 地 估计 a。 

组 内 估计 量 的 一 致 性 

当 plimC(NT)™ PNAS — XX;) (ea —ée;) 寺 0 时 ,4 的 组 内 估计 量 是 一 致 的 。 个 
在 要 么 N 一 co 机 入 T->oo, 并 且 : 


Ele,—é; |%, —X; |=0 (21, 26) 


则 应 是 这 种 情况 。 由 于 平均 值 x; 二 了 2% 与 2; 都 存在 ;所 以 此 条 件 :Ele |x | 二 0 
是 较 强 的 。 式 (21. 26) 的 充分 条 件 是 强 外 生性 条 件 ELe |xi，,… ,x 二 0。 这 就 排 
除了 含有 滞后 内 生变 量 作 为 回归 元 的 组 内 估计 (人 参见 22. 5 节 )。 

组 内 估计 量 的 渐 近 分 布 

由 于 对 于 给 定 i 时 组 内 模型 (21. 8) 的 误差 (ej 一 2;) 关 于 1 是 相关 的 ,所 以 Bw 
分 布 潜在 表现 出 复杂 性 。 下 面 将 证 明 这 一 结论 ,并 应 用 通常 的 OLS 结果 。 在 强 假 
设 下 , 即 ej 是 iid 的 ,有 : 


N T 
VL /1] = [2 2 x | (21. 27) 


其 中 ,二 xi 一。oz 的 一 致 晶 无 偏 估计 是 一 LN(T 一 1) 一 KK >;2e% ,其 中 ， 
自由 度 等 于 样本 量 NT 减 去 模型 参数 个 数 工 ,再 减 去 N 个 个 体 效应 。 注 意 , 若 利用 标 
准 最 小 二 乘法 软件 包 估 计 回 归 (21. 23) , 则 需要 通过 LN(T 一 1) 一 KLNT 一 K| 
增 大 报告 方差 。 

对 于 短 面板 , 式 (21. 13) 得 出 渐 近 方差 的 稳健 估计 : 


N T N T T N 于 
VIB = DO DR | > DEe| > > 和 过 | (21. 28) 
i 二 1 7 一 |] 1==] 一] 一] 


t=:l 


je 


其 中 ,sr 一 ex 一 6 。 这 种 深 受 人 们 偏爱 的 估计 允许 ez 的 任意 自 相 关 以 及 任何 异 方 
差 性 。 

推导 组 内 估计 最 方差 

现在 ,利用 和 矩阵 代数 推导 式 (21. 27) 给 出 的 组 内 估计 量 方差 估计 。 我 们 以 第 i 
个 观测 值 的 模型 


/ 
Vi 一 Qi 二 XO 十 ex 
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开始 ,其 中 ,x 与 8 都 表示 KX1 维 向 量 。 对 于 第 i 个 个 体 ,将 所 有 荆 个 观测 值 加 


以 释放 , 则 有 : 
Vil l Xi Eil 
ee ar 1 
ViT l i:T iT 


多 一 ea 十 XIG 十 s;， 2 一 ] 人 (21. 29 ) 

其 中 ,e 一 (1,1,…,1) 表示 所 有 元 素 为 l 的 Txl1 维 单位 癌 量 ,XX， 表示 TxK 队 短 
阵 ,而 Yi 与 es, 均 表 示 TX1 维 问 量 。 

为 了 将 模型 (21. 29) 变 换 成 组 内 模型 ,就 要 减 去 特定 个 体 均 值 , 引 和 工 X 工 阶 


或 


号 阵 : 

Q 一 [一 Tilee (21. 30) 
利用 和 矩阵 Q 左 乘 , 则 得 到 离 差 , 因为: 

QW; 一 W; 一 eW; (21. 31) 


其 中 ,W; 表示 TXM 和 矩阵 ,其 第 i 行为 Wi ,而 而 ;一 了 工 2 iW 表示 mX1 维 平均 加 
量 。 利 用 e Wi; 二 Tw' ,可 获得 结果 (21. 31)。 如 果 利 用 ee 一 工 且 Qe 二 0, 那么 
QQ 一 Q, 所 以 Q 是 大 等 的 。 
通过 Q 左 乘 第 i 个 个 体 的 固定 效应 模型 (21. 29) ,利用 Qe 一 0, 得 出 : 
Qy 一 QXOITQE ， i=—=1,.…,N (21. 32 ) 


这 是 组 内 模型 (21. 23) ,因而 通过 Q 左 乘 ,得 到 组 内 估计 量 。 当 假设 对 于 不 同 : 具 
有 独立 性 时 ,对 式 (21. 32) 进 行 OLS 估计 ,从 而 得 到 具有 方差 矩阵 的 ,等 于 ， 


N N N 
VIB j= [XQQK | XQVIQE NXTIQX| > XQQX | (21.33) 


若 以 强 假设 :sx* 是 iid [0,o2] 开 始 讨论 , 则 es 是 iid [0,o? 口 。 于 是 ,TX1 维 误差 
Qe; 关于 不 同 i 是 独立 的 ,其 均值 为 0, 且 方 差 V[Qes]=QvVv[Le ]Q = 二 oQQ =c2Q 。 


从 而 : 
>» X;Q VI Qe.; | Xi |QX, 一 > XiQc: (CQAX， 
i=1] i=] 
= 02 XQ OX 
所 以 ,利用 : 


T 
(QX;) (QX) = >) G0 CO— EE) CO—K) 
i 二 1 


式 (21. 33) 简 化 成 由 式 (21. 27) 给 出 的 估计 和 值 。 
目前 ,许多 软件 都 使 用 式 (21. 27) ,但 有 一 种 可 供 选 择 的 估计 量 可 能 会 更 好 。 
特别 地 ,序列 无 关 误差 ex 的 假设 很 容易 被 放松 。 和 若 s 是 iid L0, 互 ], 则 使 用 方差 矩 
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Tr 


阵 (21. 33) 的 更 一 般 形 式 , 该 式 满足 Cov[Qe; ,Qj 一 0, 对 于 i 尖 j ,并 用 (QE;) (Qe;) 
代替 VLQe;j, 其 中,é; 二 y; 一 XBw。 从 而 得 到 由 式 (21. 28) 给 出 的 估计 值 。 

由 前 面 推 导 知 ,应 该 很 明显 , [3w 在 随机 效应 模型 中 同样 是 一 致 的 ,尽管 正如 
21.7 太 所 证 明 的 , 当 随 机 效应 模型 合适 , 它 的 有 效 性 就 不 如 随机 效应 估计 量 那样 
有 效 。 

组 内 估计 量 的 GLS 估计 

组 内 模型 (21. 32) 同 样 能 通过 可 行 GLS 加 以 估计 。 

不 过 ,如 果 事 实 上 ei 是 iid [0,o] 的 ,那么 GLS 并 没有 什么 益处 。 为 了 理解 这 
一 点, 注意 Qe; 与 Qe 是 独立 的 ,i 关 j ,满足 V[Qe]=cQ, 因 此 ,GLS 估计 量 是 ， 


N N 
Bros = LOXQQ QX] XQQ Qy 


其 中 , 当 Q 不 为 满 秩 时 ,使 用 了 广义 逆 Q- 。 然 而 ,对 于 广义 逆 来 说 ,由 于 QQa-a=- 
Q ,并 且 Q 一 QQ , 当 这 里 Q 是 宕 等 矩阵 时 ,有 Q'Q-Q=Q'Q。 在 .os 公式 中 , 若 用 
QQ 代替 QQ Q, 则 得 出 式 (21. 32) 中 的 OLS 估计 量 。 

如 果 对 ee 做 出 其 他 模型 的 假设 ,那么 实施 GLS 会 得 到 一 些 益处 。 该 方法 本 质 
上 与 21. 5.2 节 没 有 固定 效应 的 混合 GLS 是 一 样 的 ,只 是 必须 噜 除 第 一 个 固定 效 
应 。 这 就 导致 了 非 满 秩 的 误差 Qe;, 因 此 ,我 们 首先 省 略 一 个 时 期 ,然后 将 混合 
OLS 应 用 到 仅仅 (TI 一 1) 个 时 期 上 。 相 反 , 只 使 用 通常 组 内 FE 估计 量 就 更 容易 一 
些 , 和 而且, 往往 也 不 缺少 有 效 性 ,然后 利用 式 (21. 28) 获 得 面板 稳健 标准 误差 。 

关于 短 面 板 数据 , 才 柯 过 (MaCurdy，1982b) 曾经 给 出 了 固定 效应 模型 。, 的 
ARMA 过 程 的 识别 与 估计 的 Box - Jenking 类 似 分 析 。 对 于 短 面 板 , 不 必 一 定 要 
假定 一 个 si 的 ARMA 过 程 或 者 甚至 是 平稳 的 ,因为 对 于 N->co, 我 们 总 能 通过 
N 二 三 xs 一 致 估 计 出 Cov[wui ,wu ]。 不 过 ,我 们 对 决定 误差 的 ARMA 过 程 感 
兴趣 。 


21. 6.2 一 有 阶 差 分 信 计 盟 
组 内 模型 可 借助 从 最 初 模型 中 减 去 时 间 平 均 模 型 3 二 a 十 XB 十 a; 来 获得 。 
否则 ,人 们 能 减 去 滞后 一 个 时 期 模型 y,,，| ==a; 十 x/, 168 十 8;,，! 。 于 是 : 
Cya— yi = x 1) Be ee 1), 2 (21. 34) 
因此 ,删除 了 固定 效应 a;。 进 行 OLS 估计 ,从 而 得 出 一 阶 差 分 估计 量 . 


N T 


: N 了 
Ci 一 | > ， >》 (Xi — Xi, 1 ) CKis 一 和 1 ) | 2) > (2 — Xi) Yi 一 1) 


FI 一 ] /一 2 1 一 ] 1:==2 


(21. 35) 


注意 到 ,此 回归 仅 有 NT 一 1 个 观测 值 。 应 用 容易 获得 的 误差 是 对 所 有 NT 个 观 
济 值 加 以 于 放 , 然 后 减 去 一 期 滞后 项 。 于 是 , 仅 有 (1,1) 观 测 值 被 省 略 , 而 所 有 工 
个 第 1 期 观测 值 人 ,1) ,i 一 1,…,N 必 在 差分 滞后 被 曙 除 。 
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一 阶 差 分 估计 量 的 一 致 性 
一 阶 差 分 佑 计量 的 一 致 性 需要 E |e,, 一 和 ]。 这 个 条 件 比 
ELea |xi 二 0 强 一 些 , 却 弱 于 组 内 估计 量 一 致 性 所 必需 的 强 外 生性 条 件 。 
一 阶 差分 估计 量 的 渐 近 分 布 
统计 推断 需要 调整 通常 的 OLS 标准 误差 ,以 便 解释 误差 项 e, 一 e.，, 关于 不 同 
时 间 的 相关 性 。 为 了 获得 io 的 渐 近 方差 ,将 第 i 个 个 体 的 模型 释放 成 ， 
Ay; = AX:B + Ae, 


其 中 ,Ay; 表示 (《T 一 1) ~] 维 回 量 ,其 元 素 为 (y; Yi) CY;T Yi,T—] ) ,人 入 表示 
(T—1)xK 维 问 量 ,其 行为 (x;， 1 ) ， ‘(KT 一 人 ) 。 于 是 ,在 假定 对 不 同 1 
其 有 独立 性 , 则 . 


N N 
rp 一 | 2 (AX) CAN) | 2) (CAX) CAy,) (21. 36) 
具有 下 述 方差 矩阵 : 
N N N 
VL Bn) = [2 CAK) AK) | [> CAK)V[As | AX IAX) |[ > CAXD) CAX)] 
:一 ] 一 ] ;一 1 
(21. 37) 


最 简单 的 假设 是 ,ei 为 iid L0,o 的。 于 是 ,误差 (ei 一 s;, 1) 现 在 是 MA(1) 误 
差 , 其 方差 为 2c: ,而 关于 个 体 i 的 相隔 一 个 时 期 自 相 关 为 o:。 由 此 可 得 ,V[Ae; ] 等 
于 us 乘 下 述 (T 一 1) X(T 一 1) 阶 矩阵 ;对 角 线 上 元 素 为 2, 紧 靠 着 对 角 线 的 非 对 角 
位 置 的 元 素 为 1 ,而 其 余 都 为 0。 

一 个 更 现实 的 假设 是 ， 给 定 1 时 , e; 天 于 时 间 是 相关 的 ,所 以 对 于 tA5， 由 
Covles ,ei | 天 0, 但 对 于 不 同宗 仍 是 独立 的 。 由 式 (21. 13) 知 ,对 于 短 面 板 , 作 为 对 
自 相 关 与 异 方差 性 的 一 般 形式 来 说 , 稳健 估计 量 是 式 (21. 37), 该 式 要 用 
(As) (As ) 代 替 VLAe:]。 人 们 应 该 永远 不 要 使 用 一 阶 差 分 模型 (21. 37) 中 OLS 
回归 的 通常 OLS 标准 误差 ,因为 只 有 在 6 为 随机 漫步 以 使 (e;, 一 e;.,-.1) 是 iid 的 时 ， 
这 样 做 才 是 正确 的 ,但 这 种 情况 很 少 发 生 。 

对 于 了 二 2, 由 于 了 7 二 《yi 十 yz)/2 一 阶 差 分 估计 量 与 组 内 估计 量 是 相等 的 , 因 
此 (yi 一 了 ) 二 (yi 一 92)/2, 而 (yz 一 了 ) 二 一 (yi 一 y2)/2, 对 于 x 有 类 似 情 况 。 对 于 
T>2, 这 两 个 佑 计量 则 不 一 样 。 在 最 简单 假设 :sz* 是 iid 条 件 下 ,可 以 证 明 , 一 阶 差 
分 模型 (21. 34) 的 GLS 估计 量 等 于 组 内 估计 量 。 估 计量 Ben 反而 通过 对 式 (21. 34) 
进行 OLS 估计 ,并 没有 Bw 那样 有 效 。 鉴 于 此 , 绝 大 多 数 引 论 课程 不 涉及 一 阶 差分 
佑 计量 。 然 而 , 知 引 进 清 后 因 变 量 , 则 广泛 运用 一 阶 差 分 估计 量 ( 人 参见 第 22 章 )。 
从 而 ,组 内 佑 计量 是 非 一 致 的 。 一 阶 差分 估计 量 也 是 非 一 致 的 , 却 依 赖 于 允许 进行 
一 致 IV 估计 的 较 弱 外 生性 假设 。 


21.6.3 和 条件 ML 仿 计量 


条 件 MLE 是 对 以 个 体 均 值 1 ”9 YT 为 条 件 的 yy119 ”9 YNT 联合 似 然 求 极 大 
值 。 此 方法 具有 下 述 引 人 注目 的 特性 :对 于 在 正 态 性 条 件 下 的 线性 面板 模型 来 说 ， 


如 ff 线性 面板 模型 :基础 


本 证 中 


可 剔除 固定 效应 a; ,所 以 极 大 化 只 是 关于 8 的 。 
假定 以 回归 元 x 为 条 件 的 yi 与 参数 a,6B,o 均 是 iid 的 ,满足 正 态 分 布 
AMlLa; 十 x,.B ,0 ]。 于 是 ,条 件 似 然 函数 为 ; 


N 
Lowp (Bo ,0 ) 一 [EE Fo , yir 3;) (2Z1. 38) 
一 ] . 


-=-1 f (3i) 
ap 
i (2rxo 7 了) 


CH 


1 


x op > 一 [ya ~ XB)’ + (3;— xB) |/20°) 
一 ] 


假定 对 不 同 i 具有 独立 性 ,第 一 个 等 式 定 义 了 了 条件 似 然 。 如 果 不 用 下 标 i, 给 定 
yi ,YT 的 知识 ,三 (por 了 ) 二 三 (TAG 以 及 7 pyT， 7) 一 
FoyT) 作 为 7 一 T 2iyi 的 信息 并 没有 增加 什么 内 容 , 所 以 第 二 个 等 式 总 是 
成 立 的 。 在 正 态 性 下 ,经 过 某 些 代数 运算 之 后 ,得 到 第 三 个 等 式 , 这 留 作 一 个 习题 。 

一 个 重要 结果 是 ,固定 效应 a 并 没有 出 现在 式 (21. 38) 的 最 后 一 个 等 式 中 , 因 
此 ,Loonp CB,o ,a) 事 实 上 就 是 Leowp (BB ,0 ) ,我 们 要 求 条 件 对 数 图 数 (21. 38) 仅 仅 
关于 B 与 co 的 极 大 值 。 所 得 到 的 条 件 ML 估计 量 &mw 是 一 阶 条 件 : 


了 AN 
去 2 2 [Cys | Xi ) x (3 — XO) xX; | 一 
的 解 ,或 等 价 地 : 
T N 
2 2 一 了) 一 (和 一) Ge 一 一 0 
:一 ] i=] 


然而 ,这 些 只 是 出 自 (yi 一 埃 ) 对 (x 一 X;) 的 OLS 回归 的 一 阶 条 件 。 

因此 ,条 件 MLE Bm 等 于 组 内 估计 量 Bw。 

从 直观 上 看 ,此 方法 会 得 出 一 致 佑 计量, 因为 式 (21. 38) 中 以 5y; 作为 条 件 , 易 
除了 固定 效应 。 更 正式 地 ,3; 是 关于 a; 的 充分 估计 量 , 而且 以 充分 估计 量 作为 条 
件 ,能 促使 对 B 进行 一 致 估计 (参见 23. 2. 2 节 )。 


21. 6.4 基 小 二 乘 涛 鹿 拟 变节 舍 节 量 


考察 在 任何 差分 之 前 的 最 初 固定 效应 模型 (21. 22) 。OLS 分 析 能 直接 用 于 此 
模型 , 联 立 估计 出 a 与 8B。 

原则 上 并 不 需要 特殊 软件 。 人 们 可 简单 地 估计 出 yi 对 xi 的 OLS 回归 以 及 一 
系列 NN 个 指示 变量 di, CN ,其 中 ,如果 =i, dj, 二 1, 否 则 为 0 。 然而 ， 当 N 
增 大 时 ,存在 太 多 的 回归 元 ,使 得 CN 十 K) X(N 十 RK) 个 回归 元 矩阵 逆 存 在 成 为 可 
能 。 不 过 ,经 过 一 些 和 矩阵 代数 ,将 该 问题 简化 成 KXK 阶 和 矩阵 的 逆 。 可 以 证 明 , 有 所 
得 到 的 8 估计 量 等 于 组 内 估计 量 。 这 是 所 谓 的 弗 里 施 一 沃 定理 (Frisch-Waugh 
Throem) 关 于 子 集合 回归 的 特殊 情况 。 如 果 虚 拟 变 量 被 所 有 变量 对 虚拟 变量 的 回 
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归 排 除 ,同时 春 源 目 这 些 回 归 的 残 差 用 于 第 二 阶段 回归 ,那么 我 们 得 到 的 估计 值 与 
整体 回归 的 估计 值 一 样 。 但 是 ,此 处 残 差 是 它们 各 自 与 其 均值 的 离 差 , 即 组 内 回 
归 。 为 了 完整 起 见 ,现在 阐述 有 关 的 矩阵 代数 运算 。 

一 旦 对 所 及 个 个 体 的 式 (21. 29) 中 的 TX1 维 向 量 进行 琶 放 ,就 得 出 同 定 效 


应 虚拟 变量 模型 : 
Yl e 0 0 fa XI El 
Ss 
yN 0 0 ee N N N 


y 一 [ (I ® e) x ete (21. 39) 








其 中 ,y 表示 NTX1 维 回 量 , 殉 罗 内 元 积 (IN @ e) 表 示 NTX NN 阶 分 块 对 角 和 矩阵 ， 
而 义 表 示 NTXK 阶 非常 值 回归 元 和 矩阵。 
大 对 这 一 模型 进行 OLS 估计 ,得 出 最 小 二 乘法 虚拟 变量 佑 计量 (least-squares 
dummy variable estimator, LSDYV). 
|- MW Q@e) (ING@e) (Iy® 9 I ® 了 
Bspv X (Iv ® e) XX XY 


本 Ee wx wy 
其 中 ， 样本 均值 矩阵 X=[X ee Xv) ,X= TX yo Ly 天 ] ,而 浆 二 
TT 了 1 记 ,_1ya。 若 利用 分 块 道 公式 经 过 某 些 代 数 运 算得 到 : 
CsDV 加 y—XX Bw 

| x_n ys) (21. 40) 
当 用 求 和 记号 对 此 重新 表述 ,我 们 得 出 ,由 式 (21. 24) 定 义 的 启 sv= Br, 以 及 直 式 
(21. 25) 定 义 的 asov 王 Geg ,因此 ,LSDV 估计 量 等 于 组 内 估计 量 或 固定 效应 估 
计量 。 

对 于 短 面 板 ,一 个 明显 的 潜在 问题 是 ,不 能 确保 对 B 与 a 的 一 致 估计 ,因为 存 
在 N 十 K 个 待 估 参 数 ,并 且 N 一 2。 值 得 注意 的 是 ,对 6 的 一 致 估计 是 可 行 的 , 即 
使 对 a 是 非 一 致 估计 的 ,除非 为 外 N 一 oo，。 

如 果 8; 是 iid [0,c:j 的 ,那么 此 估计 量 是 二 阶 甜 有 效 的 。 

由 此 可 得 ,6B 的 组 内 估计 量 比 其 他 可 供 选 择 的 差分 估计 量 更 有 效 , 差 分 估计 量 
同样 可 剔除 a; ,诸如 减 去 第 一 个 观测 值 或 前 面 时 期 的 观测 值 。 倘 在 误差 还 服从 正 
态 分 布 , 则 LSDYV 估计 量 等 于 借助 通常 与 OLS 等 价 的 方法 而 得 出 AMLE, 以 及 有 具 
有 球面 正 态 误差 的 线性 模型 的 MLE。 


21.6.5 大 方 郑 位 订 量 


假定 数据 属于 NN 个 类 型 之 一 ,yi 在 总 均值 3 附近 的 总 变异 (总 变化 ) 2; > 
(yz 一 了 分 解 成 组 内 变化 写 ;2 《yi 一 5;)? 与 组 间 变 化 2;(5; 一 3)?, 其 中 ,5; 表示 
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第 i 个 组 的 均值 。 当 组 间 变 化 增 大 时 ,隶属 关系 变 得 极为 重要 。 为 了 引进 回归 元 ， 
协 方差 分 析 推 广 了 该 方法 ,在 此 情况 下 , 残 差 平方 和 可 类 似 地 分 解 。 这 种 框架 广泛 
用 于 应 用 统计 学 中 。 

对 于 短 面板 ,将 每 个 个 体 看 成 一 类 ,观测 到 几 个 时 期 。 模 型 (21. 3) 称 为 协 方差 
分 析 模 型 ,因为 它 允 许 第 i 类 均值 随 不 同类 而 变化 。 这 种 模型 的 估计 量 即 组 内 估 
计量 ,由 此 也 称 为 协 方差 估计 量 (covariance estimator) 。 


21.7 随机 效应 模型 


随机 效应 模型 (21. 3) 能 重新 写成 : 


ya—=putxiBates, i=l,,N, t=1,.…,T (21. 41) 
或 者 : 
yi = Wi a; te (21. 42) 


其 中 » Wi =| 1 x ] ,而 一 [7 G | 。 特殊 个 体 效 应 Ci 被 假定 为 11d 随机 变量 的 实现 
值 ,其 分 布 为 L0,o;j ,而 误差 是 iid [0, 2 ]。 非 随机 纯 量 截 只 y 被 添加 进来 ,与 式 
(21. 5) 不 同 ,随机 效应 能 被 正规 化 成 具有 有 零 均值 的 。 

奋 则 ,此 模型 可 被 看 成 随机 系数 或 者 变 系 数 模 型 ,其 中 了 唯一 截 距 系数 是 随机 
的 。 这 种 模型 能 重新 写成 yi 二 yx 十 xiB 十 wi ,其 中 ,误差 项 wi, 有 两 个 成 分 i 一 ai 十 
ex。 鉴于 此 ,随机 效应 模型 也 称 为 误差 成 分 模型 , 芮 至 更 早 些 时 候 的 术语 可 以 是 随 
机 和 截 距 模型 。 更 丰富 的 混合 模型 同样 允许 随机 斜率 ,参见 第 22 章 。 

随机 效应 模型 存在 许多 一 致 估计 量 , 包 括 : (1) 模型 (21. 42) 的 GLS 估计 ; 
(2) 一 旦 假定 ai 与 &i 均 是 正 态 分 布 的 ,模型 (21. 42) 的 ML 估计 ;(3) 模型 (21. 42) 
的 OLS 估计 ;(4) 固定 效应 模型 佑 计量 ,诸如 组 内 佑 计量 与 一 阶 差 分 估计 量 , 尽 管 
这 些 佑 计量 仅仅 估计 时 变 回 归 元 的 系数 。 前 两 个 估计 量 是 渐 近 等 价 的 ,但 在 有 限 
样本 时 却 依 顿 于 咏 与 c: 的 特定 估计 而 变化 。 其 余 佑 计量 是 一 致 的 ,即使 事实 上 a 
和 ea 为 iid 的 时 候 它 们 是 无 效 的 。 


21.7.1 GLS 仿 计 量 


4 与 B 的 随机 效应 估计 量 是 模型 (21. 42) 的 可 行 GLS 佑 计量, 而且 本 节 稍 后 
将 证 明 , 它 通过 对 变换 方程 : 


yi —AD;= (1—At x —AX) B+v (21. 43) 
实施 OLS 回归 而 获得 ,其 中 ,vw 一 (1 一 i)w 十 (ev 一 是) ,而 交 关 于 ， 
A 二 1—o./(To te) (21. 44) 


是 一 致 的 。 等 价 地 讲 : 
i N I 
OrE 一 2 > “|= [> (wm — AWi;) (Wi — AW; ) (| >) >) wa — AWi) (yi — ADi) 


i 二 1 一] i 二 1] 1 二 1 


(Zl1. 45) 
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其 中 ,wi 二 [1 zj ,Ww; 二 Ll Xj]。 一 致 性 要 求 NT->oo0, 通 过 N 一 oo 或 TT>co 或 两 
者 全 部 。 

右 假 定 &i 与 a; 均 是 iid 的 , 则 通常 源 自 式 (21. 43) 的 OLS 回归 的 OLS 输出 能 
用 于 获得 方差 矩阵 估计 ,所 以 : 


A Sy "| ~ 1 "1]—1 
v3 = [> Dw — iw) Cw 一 各 | (21. 46) 
1 一 1 ! 一 | 


否则 ,对 于 短 面板 ,利用 式 (21. 13) 可 获得 允许 a; 十 ei 的 具有 相当 一 般 特性 的 稳健 
方差 估计 。 从 而 ,得 出 : 


(21. 47) 
其 中 ,WW,, 二 Ww 一 人 而 ， , MM i — és —AE; ;En 表示 RE 残 差 。 这 个 估计 允许 i 的 任意 月 
相关 与 任何 异 方差 性 。 
式 (21. 46) 需 要 方差 成 分 直 与 ce 。 由 (yz 一) 对 (x 一 %) 的 组 内 或 固定 效应 
回归 ,我 们 获得 : 


6 一 NT —R2 2 (Cy — 5)— (xX) Bw): (21.48) 
由 3; 对 截 距 与 3%; 的 回归 与 具有 方差 为 oi 十 02/T 的 误差 方程 之 间 的 关系 ,我 们 
得 出 : 
67 一 NN 一 (二 之 (3; 一 训 一 划 遍 )? 一 地 人 (2Z1. 49) 
得 到 方差 成 分 多 与 af。 与 o? 的 更 有 效 估 计量 是 可 能 的 [例如 ,参见 雨 宫 
(Amemiya,1985)] ,但 是 这 些 估 计量 不 一 定 提高 Rg 的 有 效 性 。 得 出 更 广泛 的 估计 
量 是 可 能 的 。 方 差 估 计量 (21. 49) 可 能 是 负 的 ,在 此 情况 下 ,程序 往往 令 o? = 二 0, 因 
此 ,4 二 0, 然 后 借助 于 混合 OLS 加 以 估计 。 
为 了 验证 可 行 GLS 估计 量 简 化 成 式 (21. 43) 的 OLS 估计 ,要 以 与 固定 效应 模 
型 相同 的 方式 释放 给 定 : 时 所 有 工 个 时 期 的 观测 值 。 于 是 : 
yi 一 Wi6 十 (ea 十 ei) (21. 50 ) 
其 中 ,y; ,ess; 以 及 成 均 在 式 (21. 29) 之 后 定义 ,而 Wi 二 [Le Xi]。 为 了 通过 GLS 进 
行 估计 ,我 们 需要 获得 TX1 维 误差 向 量 (ea; 十 ei) 的 方差 矩阵 。 给 定 a 与 sx 的 独 
立 性 ,我 们 有 EL (ea; 十 sj)(eai 十 se) ] 一 E[eei | 十 ELa? jee 。 由 于 ew 是 iid [0,c2 ] ,而 
有 a， 是 lid [0 ,0 ,所 以 得 出 : 
，， 1 
0Q=oIro ee 一 cr Qt Q) 
其 中 ,Q 一 I1r 一 Tiee 已 在 式 (21. 30) 中 引入 ,而 六 = 二 62/[e 十 Te? ] ,一旦 利用 
QQ 一 Q, 能 很 容易 验证 -一 :[Q 二 4A(C 一 Q)] ,并且 : 


0 =——[Q+ yl)] (C21. 51) 
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GLS 估计 量 可 通过 任何 纯 量 倍数 的 史 - 左 乘 式 (21. 50) 获 得 。 现 在 有 : 
LQTTWGEE 一 Q) jy 一 下 一 e yy — (yy;— ey:)) 
一 Yi 一 人 ey; 
其 中 ,二 (一 VY)。 一 旦 对 式 (21. 50) 中 的 Wi 、ea; 以 及 e; 实施 类 似 代 数 运 算 ,得 到 
下 述 模 型 : 


Vy; 一 1ey;i 一 (Wi; 一 1eWi)6 十 (1 一 1)a: 十 (es; 一 Xes;) 《21. 52) 


其 中 , 式 (21. 52) 中 的 变换 误差 具有 方差 矩阵 otc1r+。GLS 佑 计量 是 式 (21. 52) 的 
OLS 估计 量 , 但 式 (21. 52) 恰 好 是 式 (21. 43) 的 县 放 形 式 , 只 是 纯 量 4 要 用 一 致 估计 
值 来 代替 。 

当代->~co ,斜率 参数 的 随机 效应 估计 量 Bi 收 伍 到 组 内 估计 量 , 从 而 1 一 1。 否 
则 ,经 过 某 些 代数 运算 ,可 以 证 明 , se 等 于 组 内 估计 量 与 组 间 估 计量 的 矩阵 加 权 组 
合 。 当 随机 效应 模型 合适 时 , 此 加 权 平 均 比 单独 利用 组 内 估计 量 更 能 发 挥 作 用 。 
然而 , 若 固定 效应 模型 是 合适 的 , 则 此 加 权 平 均 是 非 一 致 的 ,因为 组 间 估 计量 是 非 
一 致 的 。 可 以 证 明 , 截 距 估 计量 简化 成 firg 一 3 一 了 Bre。 对 于 更 详细 内 容 , 参 见 萧 
政 (Hsiao，2003, 第 36 页 ) 或 格林 (Greene，2003 ) 。 


21.7.2 ML 估计 量 


在 前 一 节 推 性 中 ,没有 假定 误差 的 正 态 性 。 实 际 上 ,如 果 误 差 是 正 态 的 ,那么 
我 们 能 求 对 数 似 然 关于 B ,ps0 与 2 的 极 大 值 。 给 定 6 与 cs ,关于 加 与 Ap 的 MLE 
与 GLS 佑 计量 一 样 ,但 MLE 提供 的 与 c: 不 同 于 式 (21. 48) 与 式 (21. 49) 给 出 的 
那些 值 。 

因而 ,关于 6 与 wx 的 MLE 是 由 式 (21. 45) 给 出 的 ,其 中 ,4 由 可 供 选 择 的 一 臻 
估计 值 X 王 1 一 赤 /(T52 十 天 )72? 来 代替 。 从 渐 近 形式 上 看 ,随机 效应 模型 的 MLE 与 
GLS 估计 量 是 等 价 的 ,但 两 者 在 有 限 样 本 下 将 是 不 同 的 。 

对 于 MLE, 或 许 存在 两 个 局 部 极 大 值 ,而 不 是 满足 0 二 二 1 的 似 然 极 大 值 ， 
因此 为 了 确保 全 局 最 大 值 需要 小 心 谨 慎 。 


21.7.3 其 他 信 计 量 


当 随 机 效应 模型 是 正确 模型 时 ,6B 的 各 种 不 同 估计 量 都 是 一 致 的 ,特别 地 , 混 
合 OLS 估计 量 、 组 内 估计 量 、 一 阶 差分 佑 计量 以 及 组 间 估 计量 均 是 一 致 的 。 然 而 ， 
如 果 u 与 ei 都 是 iid 的 ,那么 它们 是 无 效 的 ,而 组 内 估计 量 与 一 阶 差分 估计 量 只 能 
估计 时 变 回 归 元 的 系数 。 


21.8 建 模 问题 


在 本 节 ,我 们 考虑 线性 面板 数据 模型 中 出 现 的 某 些 应 用 问题 ,甚至 在 存在 应 如 
内 生性 与 滞后 因 变 量 的 复杂 情况 下 ,有 关 专 题 则 推迟 到 第 22 章 。 
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21. 8. 1 海 合 礁 验 


随机 效应 模型 把 所 有 回归 参数 限制 成 对 于 不 同 横 截 面 与 时 期 而 言 均 为 相同 
的 ,而 固定 效应 模型 除了 截 距 外 施加 了 参数 不 变性 , 截 距 可 能 随 不 同 个 体 而 变化 。 
混合 性 检验 是 对 这 些 约束 的 合适 性 进行 检验 。 

这 些 检验 通常 是 利用 建立 在 两 个 线性 回归 中 的 回归 元 相等 的 检验 基础 上 的 分 
检验 [参见 格林 (Greene，2003 ,第 130 页 )], 那 里 假定 回归 元 具有 共同 的 方差 。 依 
赖 于 对 误差 所 做 出 的 假设 ,分 检验 可 被 应 用 于 由 OLS 或 GLS 所 估计 的 模型 。 已 
尔 塔 基 (Baltagi1，2001, 第 4 章 ) 以 及 萧 政 (Hisao，2003, 第 2 章 ) 均 详细 分 析 了 此 
问题 。 

对 于 短 面 板 数 据 , 不 可 能 允许 斜率 参数 随 不 同 个 体 而 变化 ,因为 这 样 参数 个 数 
会 趋 于 无 穷 大 。 然 而 ,允许 参数 随时 间 变 化 。 于 是 ,将 模型 y; 二 7 十 xiB 十 ui 对 模 
型 y;, 一 7 十 XiB, 十 wi 进行 检验 。 一 种 最 明显 的 方法 是 ,假定 随机 效应 满足 ui 一 
ez 十 ,利用 随机 效应 GLS 估计 量 对 约束 模型 (y= 二 7 与 8, 王 B) 加 以 估计, 同时 对 
变换 模型 中 的 约束 残 差 平方 和 与 无 约束 残 差 平方 和 进行 比较 。 如 果 人 们 偶 爱 更 稳 
健 的 推断 ,那么 就 应 获得 面板 稳健 标准 误差 ,并 且 实 施 沃 尔 德 检验 。 对 于 短 和 面板 数 
据 ,一 种 普通 做 法 是 , 设 定 模型 具有 常 值 斜率 参数 8B, 虽然 由 于 以 时 间 虚 拟 变 量 作 
为 另外 的 回归 元 ,而 允许 截 距 随时 间 变 化 。 


21. 8. 2 符 定 个 体 戏 益 检 猎 


布 鲁 什 和 帕 甘 (Breusch and Pagan，1980) 针 对 存在 特定 个 体 随 机 效应 与 iid 
误差 零 假 设 的 假设 ,进行 对 比 并 推导 出 拉 格 朗 日 乘 子 。 这 些 具 有 仅 需 要 出 目 滥 合 
OLS 估计 残 差 的 辅助 回归 而 容易 实施 的 优点 。 否 则 ,人 们 能 假定 正 态 性 ,并 且 进 
行 与 常 值 系数 模型 对 比 的 随机 效应 MLE 的 似 然 比 检验 ,或 者 进行 随机 效应 MLE 
的 似 然 比 检验 ,或 者 进行 随机 效应 模型 的 o, 二 0 的 沃 尔 德 检验 。 

在 实际 应 用 中 ,人 们 经 常 拒 绝 常 值 系 数 模 型 的 误差 是 iid 的 零 假 设 。 通 过 含有 
面板 稳健 标准 误差 的 混合 OLS, 或 者 通过 随机 效应 GLS 加 以 估计 。 

对 于 短 面 板 , 存 在 特定 个 体 固定 效应 条 件 下 ,不 可 能 有 正式 检验 ,原因 在 于 非 
主要 参数 问题 。 当 只 存在 NT 个 观测 值 且 工 很 小 时 ,检验 六 个 检验 是 否 为 0 是 不 
可 能 的 。 相 反 ,21. 4. 3 节 的 豪 斯 曼 检 验 可 用 于 随机 效应 的 零 假 设 对 应 于 备 选 假设 
的 固定 效应 。 


21. 8.3 预测 


在 没有 个 体 效应 的 模型 中 ,预测 直接 利用 3, 二 x:B 进 行 。 这 是 对 总 体 平均 
El y;, x | 的 预测 。 

关于 给 定 个 体 以 特定 个 体 效 应 为 条 件 的 情况 ,进行 预测 就 更 加 困难 。 这 是 对 
ELy,; |x; ,ai 的 预测 。 我 们 考察 利用 随机 效应 模型 (21. 42) 关 于 第 i 个 个 体 的 样本 
外 了 预测。 于 是 9 Yi.t+s 一 WiG 十 zi 其 中 ,sy 一 ai 十 err+y。 一 个 明显 预测 量 是 用 


pz 代替 8, 同时 用 0 或 元 代替 ui4;, 其 中 ,六 ;二 5 一 W 人 BpE 表 示 关 于 第 i 个 个 体 的 
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样本 内 残 差 平均 。 然 而 ,这 是 无 效 的 ,因为 它 忽略 了 w+ 与 由 特定 个 体 随 机 效应 
a; 诱导 的 样本 内 误差 之 间 的 相关 性 。 此 问题 是 GLS 框架 内 而 不 是 OLS 框架 内 的 
更 一 般 预 测 问 题 的 例子 。 对 于 这 种 特殊 情况 , 其 最 佳 线性 无 偏 与 测量 (参见 
22. 8. 3 节 ) 是 04, 一 Xi6rz 十 (Toe/(Ts 十 号))U;。 对 于 固定 效应 模型 ,一 个 明显 
预测 量 是 站 ,4; 二 X44Brw 十 Gi,re ,但 在 短 面 板 数 据 中 ,这 个 量 再 次 是 非 一 致 的 ， 


21. 8.4 冯 疝 区 应 模型 


到 目前 为 止 ,分 析 都 聚焦 于 单 向 模型 ,该 模型 是 具有 wi 二 ui 十 ei 的 式 (21. 1)。 
更 一 般 模型 是 双向 模型 ,满足 wi 二 a; 十 7 十 ei ,并 考虑 到 特定 时 间 效 应 。 于 是 有 : 


yi =ai;t YT xB +e, 1 一] ,.…,N， ft 一 1,.… ,I (21. 53) 


此 模型 最 初 是 由 式 (21. 2) 阐 述 的 。 

正如 已 经 提 及 的 ,对 于 短 面板 数据 ,一 种 通常 方法 是 ,将 特定 时 间 效 应 处 理 成 
固定 的 ,同时 将 它们 估计 成 包括 在 回归 元 之 中 的 时 间 虚 拟 的 系数 ,依据 特定 个 体 效 
应 是 应 被 处 理 为 固定 的 还 是 随机 的 ,其 分 析 有 上 所 不 同 。 

如 果 a; 是 固定 的 ,y, 也 是 国定 的 ,那么 式 (21.53) 中 6B 的 OLS 佑 计量 等 价 于 
yi 一; 一世 十 了 对 Xi 一 X; 一 ,十 丰 进行 回归 ,其 中 ,5 二 TT 了 yi 二 N72 yu， 
而 3 了 ==CNTD7T1DY ZL 加。 类 似 地 ,对 总 天 以 及 吉 定 义 。 倘 若 工 很 大 ,运用 该 
估计 方法 非常 方便 。 

相反 ,如 果 w 和 7Y, 都 是 随机 的 ,那么 误差 项 将 具有 7 成 分 ,而 7% 会 引起 不 同 
个 体 的 误差 相关 ,然而 ,我 们 关注 于 对 不 同 ;的 独立 性 。 可 以 证 明 ,GLS 估计 量 能 
通过 y; 对 常 值 与 xi 的 OLS 回 归 计 算出 来 : 


yi 一 yi AY A2Y, 十 和 3 了 


其 中 ,5;,y 以 及 了 均 已 经 定义 了 ,而 x* 可 类 似 于 2 加 以 定义 。 对 于 双 问 况 应 模 
型 的 这 种 结果 与 其 他 结果 ,可 参见 萧 政 (Hsiao，2003) 或 巴尔 塔 基 (Baltagi，2001)。 


21. 8. 5 非 平 衡 面 芒 数据 


迄今 为 止 , 讨 论 都 假定 面板 是 平衡 的 ,平衡 意 指 对 每 个 年 份 每 一 个 体 的 数据 各 
是 可 以 利用 的 。 对 于 不 同 地 区 的 面板 数据 ,经 常 是 这 种 情况 。 与 i 相 比 ,对 个 体 的 
面板 调查 而 言 ,经 常 以 仍 在 回答 调查 的 个 体 数 的 比例 随 不 同时 间 而 省 略 或 损耗 。 
此 外 , 某 些 个 体 可 能 缺失 一 个 或 多 个 时 期 ,但 稍 后 又 回来 了 ,在 一 些 情况 下 ,如 同 轮 
换 面板 Crotating panels) ,比如 CPS 所 设计 的 情况 ,一些 住户 被 连续 调查 4 个 月 ,而 
有 8 个 月 没有 调查 ,然后 调查 其 他 住户 4 个 月 。 这 种 在 不 同年 份 出 现 各 种 不 同 个 体 
的 面板 称 为 非 平 衡 面板 (unbalanced panejls) 或 不 完全 面板 Cimcomplete panels) 。 
设 di 表示 指示 变量 , 当 第 刻 个 观测 值 是 可 观测 的 时 候 ,di 二 1, 否 则 为 0。 于 
是 ,对 于 特定 个 体 效 应 模型 来 说 ,如 有 果 强 外 生性 假设 (21. 4) 变 成 : 
Ew [a sx se Nir sd ,dir =0 (21. 54) 


那么 FE 估计 量 是 一 致 的 ,同时 ,如 果 ai 与 其 他 条 件 变量 是 独立 的 ,那么 RE 估计 


微观 经 济 计量 学 


王 一 一 一 一 一 一 二 本 上 本 本 四 四 本 中 一 一 


量 是 一 致 的 。 从 而 ,对 固定 效应 估计 量 与 随机 效应 估计 量 做 相对 很 少 的 调整 ,就 不 
应 用 于 非 平 衡 数据 。 这 应 该 由 作为 21. 2. 2 节 给 出 的 各 种 模型 OLS 估计 量 的 最 初 
估计 量 表示 清楚 地 看 出 。 例 如 ,对 于 随机 效应 模型 ,用 1 一 1 一 c/CTicz 十 只)222 代 
茶 式 (21. 10) 中 的 ,其 中 ;了 ; 表示 个 体 i 的 观测 值 个 数 { 参见 巴尔 塔 基 (Baltagi， 
1985), 万 斯 比 殉 和 卡 普 坦 (Wansbeek and Kapteyn，1989)|]。 戴 维 斯 (Davis， 
2002) 考 察 了 多 向 随机 效应 模型 。 对 于 固定 效应 模型 ,样本 中 的 个 体 观测 值 必须 至 
少 有 两 次 是 观测 到 的 ,而 自由 度 必 须 做 出 适当 调整 。 巴 尔 塔 基 (Baltagi，2001) 对 
非 平衡 面板 给 出 了 深入 细致 的 讨论 。 可 以 估计 第 21 章 至 第 23 章 前 述 的 更 为 标准 
的 面板 模型 的 经 济 计量 软件 包 , 通 常会 自动 地 处 理 缺 失 观测 值 。 

有 时 候 , 通 过 包含 样本 所 有 年 份 的 个 体 , 把 非 平 衡 面 板 转换 成 平衡 面板 ,很 明 
显 ,这 能 大 大 减少 有 效 性 ,原因 在 于 损失 了 许多 观测 值 。 进 一 步 地 ,如果 数据 不 是 
随机 缺失 ,这 会 恶化 非 代 表 样 本 的 潜在 问题 .。 

缺失 数据 的 一 个 原因 是 ,尽管 大 多 数 变量 是 可 观测 的 ,但 至 少 有 一 个 变量 不 是 
可 观测 到 的 。 例 如 ,对 收入 问题 的 无 回答 率 可 以 是 相当 高 的 。 由 于 一 个 回归 元 ( 比 
如 收入 ) 的 数据 缺失 ,与 其 去 挤 全 部 观测 值 ,不 如 利用 第 27 章 曾 述 的 估算 方法 提高 
有 效 性 。 

如 果 从 样本 中 去 挥 一 些 个 体 的 原因 是 与 误差 项 相关 ,那么 非 平衡 面板 就 需要 
特殊 方法 ,所 以 式 (21. 54) 不 会 成 立 。 例 如 那些 具有 异乎 寻常 低 工资 的 个 体 (一 旦 
控制 可 观测 特性 之 后 ) 可 能 要 从 面板 样本 中 去 掉 。 夺 工资 是 因 变 量 , 则 出 现 非 代表 
面板 的 结果 ,将 导致 损耗 偏 位 。 一 致 估计 要 求 使 用 推广 到 面板 数据 的 样本 选择 方 
法 (参见 23. 5. 2 节 )。 


21. 8.6 测量 误 闫 


回归 元 的 测量 误差 会 导致 横 截 面 回归 模型 非 一 致 参数 估计 。 乔 使 用 涉及 数据 
差分 的 面板 数据 方法 , 则 其 结 采 可 能 是 增加 由 依赖 于 对 数据 生成 过 程 所 做 假设 而 
引起 的 非 一 致 性 。 : / 


21.9 应 用 人 研究 


本 章 曾 述 的 各 种 估计 量 都 很 容易 实施 。 一 种 最 简单 的 方法 是 ,使 用 诸如 
LLMDEP、STATA 以 及 TSP 经 济 计量 学 软件 包 中 的 可 用 面板 命令 ,它们 均 增加 
了 具有 通常 处 理 非 平衡 面板 的 优点 。 否 则 , 绝 大 多 数 估 计量 只 要 求 横 截 面 软件 包 
对 变换 数据 进行 适当 混合 OLS 回归 ,尽管 标准 误差 可 能 不 同 于 面板 软件 包 标 准 误 
差 , 因 为 后 者 省 略 了 由 变换 引起 的 自 相 关 , 并 使 用 不 同 的 自由 度 。 

软件 中 面板 命令 的 弱点 是 ,它们 目前 计算 的 标准 误差 是 建立 在 约束 分 布 假设 ，. 
诸如 固定 效应 模型 iid 误差 .随机 效应 模型 的 iid 个 体 效 应 与 iid 误差 的 基础 上 。 为 
了 计算 本 章 曾 述 的 更 稳健 标准 误差 估计 ,需要 含有 面板 自助 法 的 面板 估计 ,或 利用 
计算 依 集 稳健 标准 误差 选项 的 适当 混合 OLS 回归 。 

在 微观 经 济 计量 分 析 中 ,在 具有 固定 效应 的 模型 与 没有 固定 效应 的 模型 之 间 
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本 


存在 基本 差异 。 如 果 偶 爱 没 有 固定 效应 的 模型 ,那么 应 通过 豪 斯 曼 检 验 来 判断 正 
确 与 盏 。 夺 这 个 检验 拒绝 随机 效应 模型 ,那么 利用 下 一 节 阐 述 的 工具 变量 一 致 地 
合计 时 篆 值 回归 元 仍 是 可 行 的 。 


21. 10 文献 注释 


大 部 分 教科 书 , 例如 格林 (Greene，2003) 的 书 , 至 少 包 括 面板 数据 模型 的 章 
节 , 伍 德里 奇 (Wooldridge,，2002) 中 有 几 章 内 容 包 括 线 性 面板 模型 和 非 线 性 面板 
模型 。 关 于 面板 数据 的 经 济 计 量 学 专题 包括 萧 政 (Hsiao，1986,2003), 巴 尔 塔 基 
(Baltagi1，1995,2001), 马 加 什 和 塞 韦 斯 特 (Matyas and Sevestre，1995) , 李 明 字 
(M-J， Lee，2002) 以 及 阿 雷 拉 诺 (Arellano，2003) 。 最 后 三 本 书 强 调 了 本 书 第 22 
章 与 第 23 章 曾 述 的 一 些 方 法 。 迪 格 尔 、 梁 以 及 赛 格 尔 (Diggle, Liang, and Zeger， 
1994，2002) 则 是 标准 的 统计 参考 书 。 

21.4 芒 德 拉克 (Mundlak，1978) 撰 写 了 固定 效应 与 随机 效应 模型 的 经 典 论 
文 。 蚂 斯 曼 (Hausman，1978) 运 用 这 两 个 模型 之 间 的 检验 去 阐明 他 的 检验 方法 。 

21.6 库 (Kuh, 1959) 以 及 奥 克 (Hoch，1962) 提 供 了 两 个 早期 的 面板 数据 在 
投资 函数 估计 与 生产 函数 估计 方面 的 应 用 。 这 些 研 究 都 是 将 利用 时 间 序 列 变异 的 
组 内 估计 值 与 利用 横 截 面 变异 的 组 间 变 异 加 以 比较 。 


习 起 


21-1 | 改编 自 巴 尔 塔 基 (Baltagi,1999)。 | 考察 面板 模型 y; 二 a 十 Bxri 十 wi， 
其 中 ,a 与 8 均 为 纯 量 。 
(a) 证 明 通 过 适当 减法 ,使 得 这 个 模型 纺 仿 : 
ya I= ri — Ti) HBT TT Cu A) 
其 中 ”yy 一 (CNTD) Dyi ， 这 一 (CNTD) 六 9 元 ;一 下 DT o 
(b) 考虑 其 相应 的 无 约束 最 小 二 乘法 回归 : 


ya — HIB xi —E;) Bo (zi FT) (ui 一 丈 ) 


证 明 B 的 最 小 二 乘法 估计 量 是 组 内 个 计量 ,而 6B; 的 最 小 二 乘法 是 组 间 佑 计量。 

(c) 证 明 当 wi = jp; vi 时 ,其 中 ,Ji ~ 11d | 0,0 ) ,vi ~1ld [0,05, | , 而 i 与 vit 大 
于 i 和 + 上 都 是 相互 独立 的 ,OLS 与 GLS 估计 量 是 等 价 的 。 

21 -2 考察 固定 效应 线性 回归 模型 y, 二 a; 十 XB 十 ei 的 估计 ,其 中 ,a; 是 可 能 
与 %, 相 关 的 固定 效应 。 就 个 体 i 而 言 ,堆放 所 有 工 个 观测 值 ,得 到 y; 二 aie 十 入 BB 十 &; 
[参见 式 (21. 29) 的 定义 ]。 考 察 估计 量 6 二 [2 六 XJJX;] ! X21XiJ Jyi, 其 中 ， 
J 表示 TX 工 阶 已 知 常 值 矩 阵 , 使 得 Je 二 0。[ 注 意 到 ,J 的 例子 是 Q 一 Ir 一 T 'ee 。 

(a) 给 出 关于 估计 量 局 的 动机 。 

(b) 求 EL B]。 为 了 简单 起 见 ,假定 X 是 固定 回归 元 ,而 s* 是 iid [0,o]。A 
关于 .是 无 俩 的 吗 ? 
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(c) 求 VL B11。 为 了 简单 起 见 ,假定 X; 是 固定 回归 元 ,而 ei 是 iid [0,0?j。 

(d) 现在 假定 ej 关于 1 是 独立 的 ,但 关于 t 却 是 与 Vile |= 0 相关 的 。 求 
V[L Bj。 

(e) 假定 效应 a; 是 随机 的 (0,0i) ,而 不 是 国定 的 。 此 题 中 估计 量 是 一 致 的 吗 ? 

21-3 [改编 自 巴 尔 塔 基 (Baltagi,1998),] 考 察 固 定 效 应 ,双向 误差 成 分 面板 
数据 模型 . 


Vi =a 二 xB tp 二 A 十 ez 


其 中 ,a 表示 纯 量 ,x 表示 Xl1 维 内 生 回 归 元 向 量 ,G 表示 KX1 维 问 量 ,w 与 分 
别 表示 固定 个 体 效应 与 时 间 效 应 ,同时 6 ~ iid L0,c2 ]。 

(a) 证 明 6 的 组 内 估计 量 是 最 住 线 性 无 偏 的 , 它 能 通过 对 此 模型 应 用 两 个 组 
内 ( 单 回 ) 变 换 来 获得 。 第 一 个 变化 是 忽略 时 间 效 应 的 组 内 变化 ,而 随后 忽略 个 体 
效应 的 组 内 变换 。 

(b) 证 明 这 两 个 组 内 ( 单 向 ) 变 换 的 次 序 无 关 紧 要 。 给 出 此 结果 的 直观 解释 。 

21-4 利用 21.3 节 工 资 小 时 数据 的 502% 随 机 子 样本 。 

(a) 能 用 8 直接 解释 成 劳动 力 供给 弹性 吗 ? 请 解释 。 

(b) 对 于 下 述 估计 量 :(1) 混合 OLS; (2) 组 间 估 计量 ;(3) 组 内 估计 量 ;(4) 一 
阶 差分 估计 量 ;(5) 随机 效应 GLS; (6) 随机 效应 MLE。 给 出 (i) B; (ii) 默认 标准 
误差 ; (iii) 具 有 200 次 复制 的 面板 自助 法 标准 误差 。 

(c) B 的 估计 值 是 相似 的 吗 ? 

(d) 默认 标准 误差 与 面板 稳健 的 标准 误差 之 间 存 在 系统 差异 吗 ? 

(e)(b) 部 分 固定 效应 模型 的 混合 OLS 估计 量 关 于 8 是 一 致 的 吗 ?” 随机 效应 
模型 的 混合 OLS 估计 量 关 于 8 是 一 致 的 吗 ? 

(f) 实施 此 模型 中 8 的 固定 效应 与 随机 效应 (GLS) 估 计 便 之 间 差 异 的 察 斯 曼 
检验 。 这 可 以 人 工地 利用 前 面具 有 默认 标准 误差 的 回归 输出 吗 ? 你 能 得 出 什么 结 
论 ? 更 仿 爱 哪 一 个 模型 ? 

(g) 给 定 前 面 证 据 , 你 认为 劳动 力 供给 曲线 向 上 倾斜 吗 ? 请 解释 。 


ZE 
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22.1 5 引 | 论 


前 面 儿 间 已 经 阐述 具有 固定 或 随机 截 距 而 回归 元 为 强 外 生 的 线性 面板 数据 模 
型 的 各 种 变形 。 现 在 ,我 们 转向 对 线性 模型 的 各 种 不 同 推广 ,关注 对 强 外 生性 假设 
的 放松 ,以 便 允 许 对 具有 内 生变 量 和 /或 以 滞后 因 变 量 作为 回归 元 的 模型 进行 一 致 
估计 。 

运用 工具 变量 是 处 理 内 生 回归 元 的 标准 方法 。 利 用 面板 数据 比 利 用 横 截 面 数 
据 更 容易 获得 工具 ,因为 其 他 时 期 的 外 生 回 归 元 可 用 作 当 前 时 期 内 生 回 归 元 的 工 
具 。 其 唯一 的 复杂 情况 是 ,首先 要 控制 任何 固定 或 随机 效应 。 

面板 数据 允许 回归 元 额外 地 包括 滞后 因 变量 以 及 单一 横 截 面 情 形 的 不 可 利用 
数据 。 这 人 允许 对 下 述 动态 模型 进行 估计 ;此 动态 模型 可 对 作为 不 可 观测 特定 个 体 
效应 结果 (例如 第 21 章 所 阐述 的 工资 持久 性 ) ,与 作为 由 先前 时 期 结果 直接 决定 当 
前 时 期 结果 而 引起 的 持久 性 之 间 加 以 区 分 。 不 过 ,如 果 湿 后 因 变 量 为 回归 元 ,那么 
控制 特定 个 体 效 应 的 第 21 章 估 计量 就 是 一 致 的 。 利 用 较 长 滞后 时 期 项 作为 工具 ， 
工具 变量 估计 就 会 产生 一 致 估计 。 

面板 数据 提供 了 可 用 于 估计 的 过 剩 的 矩 条 件 , 这 归 因 于 拥有 大 量 工具 ,并 且 面 
板 模 型 误差 通常 不 是 iid 的 。 一 种 自然 的 估计 框架 是 面板 GMM 估计 ,22. 2 节 将 
对 此 详细 靖 述 ,而 22. 3 节 以 对 劳动 力 供 给 弹性 进行 估计 应 用 进行 前 明 。22. 4 节 
与 22. 5 节 更 深信 地 对 具有 特定 个 体 效应 的 以 及 回归 元 是 内 生 的 或 滞后 因 变 量 的 
估计 加 以 讨论 。 这 种 讨论 因为 可 涵盖 许多 可 能 的 变化 形式 而 相当 广泛 。 这 些 变形 
包括 特定 个 体 效 应 是 固定 的 或 是 随机 的 情况 、 各 种 外 生性 假设 ,以 及 恰好 识别 的 或 
过 度 识 别 的 模型 。 

本 章 其 余 内 容 将 考察 其 他 一 些 独立 专题 ,这 通常 不 需要 阅读 22. 2 一 22. 5 节 内 
容 。 与 面板 数据 模型 紧密 关联 的 一 些 模型 , 即 重复 横 截 面 数据 .差异 中 差分 以 及 分 
层 模 型 , 则 放 在 第 22. 6 一 22. 8 节 阐 述 。 


22.2 线性 面板 模型 GMM 估计 


第 21 章 的 面板 回归 模型 将 纯 量 因 变 量 yi 限制 成 只 依赖 同时 期 回归 元 的 x 
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值 ,即使 所 有 x ，…,xir 在 第 21 章 强 外 生性 假设 条 件 下 潜在 地 成 为 回归 元 。 这 排 
除了 利用 来 自 其 他 时 期 回归 元 作为 当前 时 期 工具 进行 更 有 效 估 计 的 可 能 性 。 

男 外 ,其 他 时 期 回归 元 可 能 是 当前 时 期 回归 元 的 有 效 工具 ,该 回归 元 或 是 内 生 
变量 或 是 因 变 量 训 后 项 。 因 此 ,在 强 外 生性 假设 失效 导致 第 21 章 估 计量 非 一 致 性 
的 情况 下 ,容易 利用 工具 获得 一 致 估计 。 

本 节 提 供 面 板 GMM 估计 的 一 般 表示 式 , 非 常 有 用 的 面板 IV 估计 框架 自 始 至 
终 地 广泛 用 于 22. 2 一 22.5 节 。 于 是 ,我 们 引入 非 当 前 时 期 的 外 生变 量 ( 回 归 元 或 
工具 ) 作 为 工具 。 为 了 并 人 固定 效应 或 随机 效应 ,典型 地 包括 面板 模型 ,只 要 做 出 
相对 很 少 的 改动 ,就 能 使 估计 建立 在 这 种 有 效 基 础 上 。 上 有 具体 内容, 推迟 到 下 一 节 
22.2.1 面板 GMM 


ya = Xi tu (22. 1) 


其 中 ,回归 元 x* 既 可 能 是 时 变 成 分 ,又 可 能 是 时 常 值 的 ,可 能 包括 截 距 。 此 处 , 没 
有 特定 个 体 效 应 a;, 即 放松 了 22. 3 节 的 假设 ,而 且 假 定 仅 仅 包 括 当 前 时 期 变量 , 即 
放松 了 22. 5 节 的 假设 。 假 定 观 测 值 关 于 ; 是 独立 的 ,并 假定 短 面 板 满足 人 固定 县 


人 一 cc 。 
以 对 第 ; 个 个 体 的 所 有 了 人 个 观测 值 释放 开始 ,有 : 
yi— XB Tu (22. 2) 
其 中 ,y; 与 w 均 表 示 TX1 维 向 量 , 而 X; 表示 TXK 阶 矩 阵 , 其 第 上 行为 xi ,因而 : 


ri Xi Hil 
yi 一 | : |; XI 一 | :|; mu 一 | : 
ViT ;T 2T 


模型 (22. 2) 定 义 了 线性 方程 组 ,所 以 6. 9. 5 节 中 关于 具有 数据 独立 的 对 不 同 i 而 
言 的 系统 IV 估计 的 一 些 结果 均 可 直接 应 用 。 
假定 存在 Z 工具 的 TXr 阶 矩阵 ,其 中 ,之 开 表示 工具 个 数 ,满足 > 阶 矩 条 件 : 


ELZ;u] 一 0 (22. 3) 
建立 在 这 些 矩 条 件 上 的 GMM 估计 量 是 求 有 关 二 次 形式 


Qn (8) 一 [DZu] Wel SZ] 


的 极 小 值 ,其 中 ， WN 表示 rxXr 阶 加 权 和 矩阵 。 给 定 YU; — Vy; — XG 9 经 过 一 些 代数 运 
算 ,得 到 面板 GMM 估计 量 (panel GMM estimator): 


Broum = (OXZ WD LX) (PD XL) Wa (2 Ziy:) 
此 佑 计量 一 致 性 的 根本 条 件 是 假设 式 (22. 3)。 
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在 许多 应 用 中 ,Zz 是 由 外 生 回 归 元 的 当前 值 与 滞后 值 组 成 的 。 。 全 如 ,假定 所 有 
回归 元 都 是 同时 期 外 生 的 。 于 是 ,ELxiui ]==0 蕴含 着 Z, 一 [xi… xir ]。 在 此 情况 
下 ,模型 是 恰好 识别 的 ,而 且 由 于 ZZ 二 X;, Browm 简 化 成 第 21 章 的 混合 估计 量 。 如 
来 额外 假定 ELxi-1ui jj] 二 0, 那 么 x;，1 可 用 作 关 于 第 让 个 观测 值 的 另 一 个 工具 ,该 
模型 是 过 度 识 别 的 (over-identified) ,利用 估计 量 得 出 更 有 效 的 估计 量 是 可 能 的 。 

22. 4 市 话 细 曾 明 利用 各 种 外 生性 假设 来 构成 工具 第 阵 五 。 当 这 种 分 析 用 于 
含有 特定 个 体 效 应 a; 的 面板 数据 模型 时 ,就 需要 加 以 改动 。22. 3 节 运 用 一 个 实证 
应 用 例子 对 此 加 以 阐述 ,而 第 22. 4 节 与 第 22. 5 节 则 以 明确 方式 进行 讨论 。 


22.2.2 面 析 稚 健 统计 推断 
为 了 表述 面板 GMM 估计 量 的 分 布 , 用 更 简洁 的 记号 非常 方便 。 重 新 写成 : 
Ge 一 LXZWNZ'X]-IXZWNZ'Y (22. 4) 
其 中 ,和 一 LX … XNj,Z 一 [ZI ZN] 而 Y 一 [y … yN]。 于 是 , Gram 是 渐 近 正 态 
的 ,其 估计 渐 近 方 差 矩 阵 为 : 
VL Brom j= [XZWNZ XX ZWN CNS) WAZ XE[X ZWNZ X11) (22.5) 


参见 式 (6. 97) ,其 中 ,S 表示 rXr 阶 和 矩阵 : 
S = plim ~ LA (22. 6) 


的 一 致 估计 ,同时 假定 关于 i 具有 独立 性 。 这 里 的 根本 假设 是 N -2Z 二 
N-I2 了 ZJ 全 NM[0，S],S 的 怀特 形式 稳健 估计 是 ， 


N 
§ = LV Zaz, (22.7) 
N 1 


其 中 ,TX1 阶 估计 残 差 和 二 y; 一 XB。 

由 估计 式 (22. 5) ,得 出 面板 稳健 标准 (panel-robust standard) 误差 , 既 考 察 异 方 
差 性 ,又 考虑 到 不 同时 间 的 相关 性 。 否 则 ,能 使 用 面板 自助 法 (panel bootstrap ) 。 
进一步 讨论 ,参见 21. 2. 3 节 对 同样 问题 的 应 用 。 


22. 2.3 一 步 与 两 步 面 覆 GMM 


除 当 PGMM 估计 量 简化 成 关于 任何 Wn 的 IV 估计 量 [Z Xj] 'Zy 时 恰好 识 
别 的 情况 之 外 , 式 (22.4) 中 各 种 不 同 的 满 秩 加 权 和 气 阵 Wn 产生 了 各 种 不 同 的 系统 
GMM 佑 计量 。6. 4.2 节 已 反映 出 此 种 讨论 。 这 里 给 出 两 个 重要 的 Ww 选择 。 

一 步 GMM 

一 步 GMM 或 两 阶段 最 小 二 乘法 估计 量 运用 了 加 权 答 阵 Wn 一 [2;Z;2Z;] 二 
[Z Z] ,得 到 : 


Bass 一 [XZ(ZZ)-1ZX]-XZCZZD) ZY (22. 8) 


C1] 原著 该 公式 中 的 “(CNS)WNZX” 应 为 “(NS)WNZX”, 这 是 一 个 印刷 错误 , 现 已 改正 。 一 一 译 者 注 
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引发 该 估计 量 的 动机 是 ,可 以 证 明 ,如果 由 | 到 服从 iid [0,oIr|, 那 么 它 是 建立 在 
式 (22. 3) 上 的 最 优 估计 量 。 

该 估计 量 称 为 一 步 GMM, 因为 给 定数 据 时 , 它 可 直接 利用 式 (22. 8) 加 以 计 
算 。 不 过 ,将 它 称 为 2SLS, 原 因 在 于 它 能 通过 两 阶段 方式 获得 ; (1) X; 对 Z; 的 
OLS, 进 而 得 出 预测 义 ,; (2) y; 对 义 ; 的 OLS。 记 ss 方差 矩阵 的 估计 值 , 关 于 面板 和 
异 方差 性 都 是 稳健 的 ,这 由 满足 Wn 一 [ZZ 的 式 (22.5) 给 出 。 

两 步 GMM 

建立 在 无 条 件 矩 条 件 (22. 3) 基 础 上 的 最 有 效 GMM 估计 量 运 用 了 加 权 和 矩阵 
Wn 一 S 1 ,其 中 ,$ 表示 关于 S 是 一 致 的 ,这 已 由 式 (22. 6) 定 义 了 ;一 般 结 果 , 参 见 
6. 4. 2 节 。 一 旦 使 用 式 (22. 7) 中 的 S$, 则 得 出 两 步 GMM 佑 计量: 

Be 一 [XI7ZS-IZX]-IXZS 'Z'y (22. 9) 

于 是 , 式 (22. 5) 得 以 简化 ,并 且 V[ Bswvm 二 [X'ZCNS)-1ZX] 1!. 

这 个 估计 量 称 为 两 步 GMM ,因为 8 的 第 一 步 一 致 估计 估计 量 比 如 /Boas ,需要 
用 于 计算 残 差 让 ,而 二 则 用 于 计算 S。 

提高 有 效 性 : 

在 本 章 ,关注 于 之 不 能 包括 和 的 所 有 成 分 ,因为 和 的 一 些 成 分 具有 内 生性 。 
为 了 理解 这 一 点 ,假定 和 是 强 外 生 的 。 咎 令 Z=X, 两 步 GMM 佑 计量 简化 成 
[XXXy, 从 而 对 面板 GMM 而 言 没 有 什么 益处 。 然 而 ,如 果 了 等 于 X 以 及 另 
一 些 变 量 ,诸如 回归 元 的 医 或 者 不 同 于 当前 时 期 的 其 他 时 期 回归 元 值 ,那么 两 步 
GMM 方法 至 少 与 OLS 一 样 有 效 , 奉 误差 心服 从 iid 的 , 则 等 式 成 立 。 

获得 比 sswm 更 为 有 效 的 估计 量 是 可 能 的 ,这 要 借助 于 放松 Zz 的 定义 ,通过 
利用 基于 El ui Z|=0 的 最 优 矩 条 件 , 它 不 必 是 ELZiu | 一 0( 参 见 22. 4. 3 节 ) 9 同 
时 利用 另外 矩 约 束 。 我 们 避 开 了 将 两 步 GMM 称 为 最 优 GMM 估计 量 , 正 如 6. 3 
节 一 样 , 它 仅 在 给 定式 (22. 3) 时 为 最 优 的 。 

检验 过 度 识 别 约束 

如 果 存 在 个 工具 , 且 仅 有 天 个 名 让 参数 ,那么 面板 GMM 估计 和 留 下 Cr 一 K) 
个 过 度 约束 。 由 6. 3. 8 节 知 ,这 使 得 检验 过 度 识别 约束 


OIR 一 | Daz |(NS) | DZ, | (22. 10) 
成 为 可 能 ,其 中 ,i 二 y; 一 ZBzsomu ,S$ 已 由 式 (22.7) 给 出 ,同时 假定 对 不 同 i 具有 独 
立 性 , 却 允 许 给 定 i 时 关于 不 同上 具有 异 方差 性 及 相关 性 。 注 意 到 , 必须 使 用 
[Bsomm ;而 不 是 [as， 
在 零 假设 :过 度 识别 约束 是 有 效 的 条 件 下 ,这 一 检验 统计 量 服从 X (r 一 开 ) 分 
布 。 当 QIR 很 大 时 ,就 要 拒绝 过 度 矩 条 件 , 从 而 我 们 得 出 结论 :Z; 的 一 些 工具 与 误 
差 是 相关 的 ,从 而 这 些 工具 是 内 生 的 。 


22. 2.4 赣 取 工具 


旋 今 为 止 , 讨 论 都 假定 存在 满足 式 (22. 3) 的 TxXr 阶 工具 乙 算 阵 。 现 在 ,我 们 
给 出 深入 细致 的 讨论 ,阐明 如 何在 面板 背景 下 获得 工具 。 
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在 模 截 面 模型 中 ,内 生变 量 可 借助 于 关注 方程 中 没有 出 现 的 作为 回归 元 的 工 
具 。 这 类 变量 同样 能 用 作 面 板 情况 下 的 工具 。 然 而 ,就 面板 模型 而 言 , 其 他 时 期 的 
数据 提供 了 额外 矩 条 件 以 及 额外 工具 ,这 很 容易 导致 8 的 识别 或 过 度 识别 。 

当 对 ww 与 z 之 则 相关 性 做 出 逐渐 增强 的 一 些 假 设 时 ,和 矩 条 件 以 及 利用 工具 个 
数 可 得 以 推广 ,其 中 ;,t 二 1,…, 本 。 我 们 遵循 李 明 宰 (M. -J].， Lee，2002) 的 线索 , 考 
察 逐 渐 增 强 外 生性 假设 的 效果 ,可 参见 2. 3 节 。 强 调 内 容 不 止 一 次 地 利用 回归 元 
的 外 生成 分 作为 工具 ,但 该 方法 还 可 应 用 于 成 为 排除 于 回归 (22. 1) 之 外 的 变量 的 
更 传统 工具 。 


求 和 假设 
一 种 明显 的 方法 是 ,类 似 于 X; 去 定义 Z;。 于 是 : 
Zi Wil 
Zi2 Wi?2 
4 二 : 9 U; 一 。 (22.11) 
Z 订 WiT 
其 中 ,zi 是 rX1 维 的 ,如 果 求 和 假设 : 
E| Dzuui |= 0 (22. 12) 


得 到 满足 ,那么 ELZiu] 二 0，。 

如 果 式 (22. 12) 中 z= 二 xi ,那么 由 式 (22. 4) 定 义 的 PGMM 估计 量 简 化 成 
( 2;Z7;X;) 1 2 ;Ziy; ,所 以 这 个 求 和 假设 可 用 于 yi 对 的 混合 OLS 回归 。 

为 此 估计 量 成 为 可 行 的 ,至 少 需要 满足 阶 条 件 , 因 此 7 之 并 。 在 求 和 假设 下 , 寻 
找 面 板 数 据 的 工具 就 如 同 横 截 面 数 据 一 样 困 难 。 

同时 期 外 生 假 设 

一 个 较 强 的 且 更 目 然 的 假设 是 同时 期 外 生性 假设 (contemporaneous exogeneity 


assumption) , Bh. 
El zu |=0, t=1,*…,T (22. 13) 
因此 ,假定 工具 与 误差 项 同时 期 不 相关 。 


这 种 表述 引出 更 多 和 抢 条 件 ,原则 上 与 Tr 个 矩 条 件 一 样 多 ,其 中 ,r= dim[z ]。 
为 了 运用 这 些 矩 条 件 ,我 们 定义 : 


Zi 0 机 0 Uil 
0 Z， : Wi2 
Z=| ， 一 | - (22. 14) 
: 。 0 : 
0 … 0 下 ur 


其 中 ,Z, 现在 表示 开 XTr5lI。 矩 条 件 (22. 3) 成 立 , 因 为 由 式 (22. 13) 知 ELZu j==0， 


[1] 原文 这 里 为 “TrX7”, 应 为 “TXTr”, 这 可 能 是 一 个 印刷 错误 , 现 已 改正 。 一 一 幸 者 注 
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但 现在 式 (22. 3) 定 义 了 可 用 于 估计 6 的 KK 个 分 量 的 Tr 和 矩 条 件 。 

由 于 隐 性 假设 ;6B 是 时 常 值 的 ,所 以 才 会 出 现 托 约束 明显 过 度 的 显著 结果 , 因 
此 ,每 一 个 额外 时 期 均 贡 献 额 外 和 矩 约 束 。 

祝 外 和 矩 约 束 的 个 数 简 化 成 8 为 时 变 的 程度 。 特 别 地 ,借助 于 x 包括 (T 一 1) 个 
时 间 点 拟 变 量 , 当 1 一 s 时 , 则 4; 一 1, 否则 di; 二 0, 对 于 一 2,……, 开 ,往往 人 允许 截 
中 随时 间 变 化 。 于 是 ,不 能 使 用 条 件 ELd,.iui 1] 二 0 ,因为 它 重 复 了 包含 x 中 的 一 
个 截 距 的 条 件 EL1Lxzxzj=0。 在 前 面 例子 中 ,如 果 xi 包含 时 间 虚 拟 变量 ,那么 就 只 
存在 TK 一 (T 一 1) 个 可 利用 的 和 矩 条 件 。 任 何 时 常 值 回 归 元 只 能 用 作 一 次 工具 ， 

弱 外 生性 假设 

气 条 件 (22. 13) 仅 仅 考察 工具 与 回归 元 之 间 的 同时 期 相关 。 一 -个 较 强 的 假设 
是 弱 外 生性 假设 (weak exogeneity assumption) 或 先决 工具 假设 (predertermined in- 
struments assumption) , 该 假设 还 包括 工具 的 清 后 值 与 当前 误差 是 不 相关 的 ,所 以 : 


El zx |=0, s 4， tt 二],*.……,T (22. 15) 


条 件 (22. 15) 人 允许，…,Zz 成 为 ui 的 工具 ,尽管 不 能 使 用 z, 的 未 来 值 。 工 具 Zz 在 
构造 上 类 似 于 式 (22. 14), 只 是 要 用 扩展 工具 向 量 [zi，… ,zi 来 代替 ,该 工具 向 
量 会 随 着 上 增 大 而 增 大 。 

理性 预期 模型 以 及 在 不 确定 性 条 件 下 的 跨 期 决策 模型 ,都 会 产生 欧 拉 条 件 
EL wi | 二 0, 其 中 ,三 , 表 示 在 时 间 t 时 可 利用 的 信息 集合 ,而 wi 的 例子 已 由 6. 2.7 
下 给 出 。 如 采信 息 集合 包括 z 当前 值 及 过 去 值 ,那么 ELui |z 一 0，;s 二 it, 从 而 得 
到 式 (22. 15) 。 

更 一 般 地 ,这些 条 件 在 含有 滞后 因 变 量 作 为 回归 元 的 动态 模型 里 是 有 意义 的 
(参见 22. 5 节 )。 在 一 些 例子 中 ,同时 期 相关 并 没有 被 排除 ,因而 式 (22. 15) 中 的 不 
等 式 ; 二 要 用 s 二 i 代替 。 

注意 到 ， 时 和 常 值 工具 只 能 使 用 一 次 。 因而 ， 当 Lit | zi， 225 | 时 ,1; 与 z2i 9 doi 
都 可 作为 工具 。 

强 外 生性 假设 

一 个 比 弱 外 生性 更 强 的 假设 是 强 外 生性 假设 (strong exogeneity assumption ) ， 
即 指 工 具 的 未 来 值 也 与 当前 时 期 误差 是 不 相关 的 ,因此 、 


El zu |=0, sst=],*……:, TT (22. 16) 


于 是 ,zi 的 当前 值 .过 去 值 以 及 未 来 值 均 是 wi 的 有 效 工具 。 

该 假设 对 于 第 21 草 全 部 的 回归 元 来 说 都 要 成 立 , 因 为 ELui | Xs,…… ,Xir | 二 0 
更 含 着 了 [ze |% | 二 0,1 志 ss 读本 ,从 而 E[ x u | 二 0。 就 静态 模型 而 言 , 它 是 合适 
的 ,但 对 于 动态 模型 来 说 ,至 多 假定 工具 的 弱 外 生性 。 

条 件 (22. 16) 允许 dil 9" ET 成 为 Wi 的 工具 。 工具 Jf 在 构造 上 类 似 于 式 
(22. 14) ,只 是 式 (22. 14) 中 的 区 用 扩展 工具 向 量 Lzi ,… ,zir 代替 。 

就 弱 外 生性 情况 而 论 , 时 常 值 工具 只 能 利用 一 次 。 奎 二 [上 zy zz , 则 可 以 利 
用 T(rn 十 rrv) 短 条 件 ,其 中 ,rn 与 rrv 表 示 时 第 值 与 时 变 工具 的 数目 。 

矩 条 件数 目 极 多 ,多 到 与 rT 一 样 ,原因 在 于 面板 模型 (22. 1) 隐 含 地 做 出 排除 
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性 约束 。 为 了 价 音 起见, 假定 x 的 所 有 成 分 都 是 强 外 生 的 ,并 且 如 有 可 能 ,我 们 希 
望 使 用 这 些 作 为 工具 。 通 常 ,yi 在 所 有 时 期 都 依赖 于 回归 元 x ，… ,Xr。 与 之 相 
比 ,满足 EL xiui 二 0 的 面板 模型 Vi =—x,B 十 wu 在 此 yi 的 模型 中 只 包含 了 x;。 于 
是 , 除 之 外 , 强 外 生性 假设 即 El xui |=0 允许 排除 回归 元 x ，s 天 上 用 于 工具 。 

见 余 工具 

如 果 z, 丸 随 i 变化 又 随 上 变化 ,那么 zz 的 清 后 项 与 前 置 项 也 可 用 作 工 具 , 但 这 
要 依赖 于 做 出 的 外 生性 假设 。 对 于 第 站 个 观测 值 来 说 ,可 利用 工具 在 同时 期 外 生 
性 下 是 2 在 虹 外 生性 下 是 za ，…,z ,而 在 强 外 生性 下 则 是 z1，…' ,zir。 这 使 得 只 
利用 外 生 回归 元 作为 工具 进行 识别 成 为 可 能 。 与 那些 模 截 面 情况 相 比 ,寻求 有 效 
工具 的 困难 在 于 只 有 求 和 假设 。 

不 过 ,在 实际 应 用 中 ,并 不 存在 前 文 所 述 那 样 多 的 可 利用 工具 。 时 常 值 工具 
(time-invariant instruments)z, 一 Z 只 能 利用 一 次 ,从 而 对 于 所 有 有、 与 上 ,有 Zi 一 Zi 。 
例如 ,这 就 是 截 中 或 种 族 或 性 别 指示 变量 的 情况 。 夺 工具 是 模型 中 出 现 的 回归 元 
与 回归 元 请 后 值 , 则 利用 工具 数目 就 会 减少 。 在 所 有 时 期 ,也许 不 能 利用 以 某 种 系 
统 方式 变化 的 时 变 工 具 。 因 而 ,如 果 使 用 时 间 虚 拟 变 量 的 完整 集合 ,就 应 该 包括 作 
为 工具 的 时 间 虚 拟 变 量 与 时 和 常 值 回 归 元 之 积 。 一 些 例子 包括 ,时 间 虚 拟 变 量 、 时 间 
虚拟 变量 与 种 族 或 性 别 交 互 作用 的 指示 变量 。 作 为 时 间 线 性 晴 数 的 工具 应 该 只 能 
利用 一 次 。 例 如 ,如 有 果 年 份 是 工具 ,了 驶 不 应 该 再 使 用 沛 后 年 份 。 这 种 评论 的 确 不 可 
用 于 年 龄 ,这 对 每 个 个 体 而 言 会 以 线性 方式 增 大 , 却 随 不 同 个 体 而 变化 。 

很 明显 ,使 用 元 余 工具 很 容易 玲 忽 细节 。 奇 仍 存 在 充足 的 非 元 余 工具 , 则 面板 
GMM 佑 计量 仍然 是 可 行 的 ,同时 通常 结果 是 有 效 的。 例如 ,如 果 有 7 个 工具 可 以 
使 用 ,并 且 其 中 有 两 个 为 匈 余 的 ,倘若 rr 宇 K 十 2, 当 ZX 还 是 满 秩 的 且 为 ,那么 
该 模型 就 是 可 估计 的 。 如 果 使 用 太 多 的 元 余 工具 ,那么 可 能 产生 GMM 佰 计 的 奇 
异性 问题 。 即 使 模型 是 过 度 识别 的 , 当 一 些 工具 是 元 余 的 时 候 , 过 度 识别 约束 检验 
的 目 由 度 将 会 减少 。 

弱 工 具 

弱 工 具 已 在 4.9 节 引入 ,但 是 不 要 与 弱 外 生性 相 混 清 。 弱 工具 的 正式 检验 还 
没有 很 好 地 建立 起 来 。 标 准 统 计量 诊断 已 经 由 4. 9 节 给 出 。 增 加 工具 解释 力 至 天 
重要 。 因 此 ,控制 外 生 回归 元 的 偏 R: 同样 处 于 应 该 使 用 的 工具 集合 中 。 此 外 , 鉴 
于 内 生 回 归 元 对 所 有 工具 进行 回归 ,统计 量 应 是 没有 成 为 外 生 回 归 元 工具 子 集 的 
整体 显著 的 代表 。 

由 于 这 里 的 误差 不 是 iid 的 ,所 以 下 统计 量 应 该 建立 在 面板 稳健 标准 误差 基础 
上 。 它 被 计算 成 W/r* ,其 中 ,W 表示 由 7.2.7 节 给 出 的 排除 性 约束 的 沃 尔 德 卡 方 
检验 统计 量 , 而 rr* 表示 那 种 不 是 最 初 模型 中 回归 元 的 工具 数目 。 


22.2.5 面板 GMM 信 计 量 的 计算 


上 面 一 节 讨 论 的 矩 条 件 提供 了 工具 和 矩阵 Z,。 于 是 ,给 定 Z;, 人 们 能 通过 式 
(22. 8) 定 义 的 房 ss 或 式 (22. 9) 定 义 的 Bi 估计 6。 
与 两 步 GMM 相 比 ,更 容易 实施 2SLS 佑 计量。 考察 求 和 假设 下 的 估计 , 其 中 ， 
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rm 


Zi 已 由 式 (22. 11) 定 义 。 于 是 , Bsis 由 式 (22. 8) 给 出 ,其 中 ,ZX= 32,74X; 一 也 
27,7iXi ,同时 类 似 代数 运算 可 用 于 其 他 叉 积 。 这 就 得 出 标准 教科 书 中 的 2SLS 公 
式 , 只 是 求 和 既 关 于 i 又 关于 上 而 进行 。 因 而 ,一 旦 利用 横 截 面 软件 包 , 房 ss 可 通 
过 yi 对 xi 的 回归 来 获得 。 于 是 ,面板 稳健 标准 误差 能 利用 下 述 方 式 来 获得 ; 即 利 
用 人 允许 对 :聚集 的 聚集 稳健 选项 ,或 者 通过 对 i 而 不 是 既 对 ; 又 对 上 重复 抽样 的 面 
板 自 助 法 。 这 些 方 法 类 似 于 由 21. 2. 3 节 给 出 的 混合 LS, 那 里 提供 了 额外 详情 。 

对 于 不 是 求 和 假设 的 假设 来 说 ,人 们 仍然 能 通过 适当 定义 工具 矩阵 Z; ,使 用 横 
截面 2SLS 软件 包 , 从 而 拥有 更 为 复杂 的 形式 。 就 同时 期 外 生性 假设 而 言 ,Z; 是 由 
式 (22. 14) 定 义 的 。 如 果 式 (22. 11) 中 的 第 1 行 专 由 


[0, £0 z5 0 0,] (22. 17) 


代替 ,那么 这 与 式 (22. 11) 的 形式 相同 ,其 中 ,7, 一 dim[z,] 而 0, 表示 零 向 量 。 类 似 
地 ,对 于 弱 外 生性 假设 来 说 ,z; 由 式 (22. 11) 定 义 , 式 (22. 11) 中 的 第 1 行 由 


[0 ~ 0 (C25) 0 0 (22. 18) 


代替 ;其 中 ,(z) 二 [za… zj 而 x 二 dim[zi,], 男 外 对 于 强 外 生性 假设 来 说 ,Z; 由 
式 (22. 11) 定 义 , 式 (22. 11) 中 的 第 1 行 芭 由 


[0, … 0， (2) 0 0,] (22. 19) 


1 


代替 ,其 中 ,(z7) 一 [zz 了 7], 而 一 dim[zr]。 生 成 工具 的 实际 例子 将 由 22. 3 
节 给 出 。 

实际 应 用 中 ,存在 太 多 的 矩 和 条件。 例如 ,含有 10 个 时 期 数据 与 5 个 时 变 回归 
元 ,其 强 外 生性 假设 会 产生 500(5X102:) 个 矩 条 件 ( 而 且 前 面 的 行 向 量 拥有 500 个 
元 素 ), 仅 有 5 个 要 估计 的 参数 。 工 具 的 临界 值 可 以 是 非常 轻微 的 ,因为 工具 之 间 
不 断 增 加 的 多 重 共 线 性 导致 了 弱 工 具 的 情形 。 好 的 实践 做 法 是 把 随时 间 稍 微 变 化 
的 时 变 工 具 处 理 成 时 常 值 的 。 例 如 ,仅仅 利用 第 一 个 时 期 作为 工具 。 甚 至 随时 间 
变化 相当 大 的 工具 可 能 仅仅 使 用 几 个 时 期 而 不 是 所 有 可 能 时 期 。 

只 利用 软件 包 获 得 更 有 效 计 算 ,这 是 不 可 能 的 。 相 反 , 要 么 需要 更 专门 化 的 软 
件 , 要 么 需要 利用 矩阵 语言 算法 对 估计 量 加 以 编程 。 

表 22. 1 提供 了 四 种 外 生性 假设 并 概括 了 所 得 到 的 有 效 工 具 。 


表 22.1 面板 外 生性 假设 与 得 到 的 工具 


外 生性 假设 矩 条 件 工具 和 问 量 " 
求 和 假设 El 2,z.u: |=0 Lz 
同时 期 假设 E[zsuzr] 一 0, 所 有 : [on O71 0 O07] 
弱 假 设 E[ziui |=0, ; 志 t, 所 有 [0- … 0- (2,) 0 0 | 
强 假设 F[zwui ] 一 0, 所 有 ;与 t [0- -7 0- C27) 0 0 


a 工具 向 量 是 式 (22. 11) 中 Zz 的 第 i 行 ; (2 ) = 二 [zi BT ,28) 一 [2 22T] ; 而 + 一 dim[zij 或 
dim[z |] 或 dim[zi]。 
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本 am 


22.2.6 仿 计 的 变 分 


尽管 Gzsowm 比 0zsis 更 为 有 效 ,一些 研 究 发 现 , 它 具有 比 gxss 更 大 的 有 限 样本 偏 
傈 ,尤其 是 当 r 非常 大 于 K 时 。 为 了 解释 ,请 参见 6. 3. 5 节 对 最 优 GMM 有 限 样 本 
偶 倚 的 讨论 。 

一 种 明智 方法 是 使 用 工具 ,尽管 因为 加 入 额外 工具 而 损失 了 潜在 的 有 效 性 。 

几 位 作者 已 经 提出 可 供 选 择 的 GMM 估计 量 , 该 估计 量 在 有 限 样 本 中 可 能 较 
少 是 有 偏 的 。6. 4. 4 节 已 经 对 这 样 一 些 估 计量 加 以 讨论 过 ,而 齐 利 亚 元 (Ziliak， 
1997) 在 面板 人 研究 中 使 用 了 这 样 的 估计 量 ，。 


22. 2.7 张伯伦 最 优 距 户 信 计量 
考察 特定 个 体 效 应 模型 的 估计 : 
Vi =@; 二 XiB 二 wi (22. 20) : 


此 时 回归 元 是 强 外 生 的 ,如 同 第 21 章 一 样 。21. 2. 3 节 与 21. 6. 1 节 已 经 讨论 了 , 获 
得 组 内 售 计 量 面板 稳健 标准 误差 的 方法 。 

如 果实 施 面 板 稳 健 推 断 是 必要 的 ,由 于 ei 不 是 iid 的 ,那么 第 21 章 所 述 佑 计量 
实际 上 都 是 无 效 的 。 更 有 效 的 估计 可 能 是 将 最 优 GMM 用 于 过 度 识别 模型 。 当 额 
外 工具 与 GMM 能 应 用 于 变换 模型 时 ,如 果 消 除 a; 是 必要 的 ,这 里 可 以 利用 x， 
5 天 上 参见 22. 4. 2 节 )。 其 有 效 性 改进 类 似 于 含有 异 方差 性 的 模 和 截面 数据 (参见 
6. 3.5 节 )。 

张伯伦 (Chamberlain，1982，1984) 曾 提出 下 述 更 有 效 的 估计 量 。 对 模型 
(22. 20) 进 行 芽 放 表 示 , 得 到 ， 


y;—ea;T (Ir ® Fx (22. 21) 


其 中 ,e 一 (1,1,…,1)' 表 示 TX1 维 单位 向 量 ,x; 二 [xi ,，… ,Xir]」 表示 TK X1 维 向 
量 , 而 y 与 WW 表示 TX1 维 向 量 。 式 (22. 21) 使 得 下 面 情况 清楚 可 见 : 即 设 定 yi 只 
依赖 于 同时 期 x; 的 静态 模型 隐 伟 做 出 一 些 约束 。 张 伯 伦 使 用 了 依赖 于 比 条 件 期 
望 的 那些 假设 更 纶 的 假设 的 线性 投影 推理 。 设 : 


E’*[ai|x:|] = y+ 2 ,Nx = 二 A 入 xX 
其 中 ,了 "表示 线性 投影 。 一 日 给 定 Eu | a， ,X | 一 0, 式 (22. 21]) 绽 含 着 : 
E’[y; |x; |=ext (Ir ® 6 +eA )x, 


这 对 无 约束 线性 E*ly: [x ]= No xX 投影 施加 了 约束 ,具体 来 说 ， TT—lr% 了 十 
eA 和 一 0。 

张伯伦 没有 使 用 GMM ,而 是 提出 下 面 两 步 方 法 。 首 先 , 通 过 y; 对 截 中 与 x 进 
行 多 变量 OLS 回归 获得 。 其 次 ,获得 求 


QN(C9,A) 一 (Vec[ 齐 一 碧 四 8 一 eX]) Wn(Vec[ 二 Ir ® DG 一 eX]) 
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极 小 值 的 最 优 MD 估计 量 (参见 6. 7 节 ), 其 中 ,最 优 加 权 和 矩阵 W、 = 
(VL[Vec[ 齐 ]) “!。 如 果 ww 是 异 方差 的 ,这 就 产生 了 比 式 (22. 20) 的 OLS 估计 更 有 
效 的 估计 量 记 。 

最 小 距离 估 计 被 GMM 取代 ;参见 阿 雷 拉 诺 (Arellano，2003 ,第 22 一 23 页 )， 
以 及 死 雷 于 和 梅 尔 斯 (Crepon and Mairesse，1995) 对 张伯伦 的 MD 估计 量 与 
GMM 的 比较 。 然 而 ,张伯伦 的 通过 外 生性 假设 与 关于 个 体 效 应 假设 而 获得 的 算 
约束 方法 对 面板 文献 产生 了 巨大 的 影响 。 他 的 MD 估计 量 同 样 可 用 于 协 方差 结构 
的 估计 (参见 22. 5.4 节 )。 


22.3 面板 GMM 例子 :小 时 与 工资 


我 们 回 到 21. 3 节 的 小 时 工资 例子 上 。 与 第 21 章 不 同 , 现 在 允许 回归 元 是 内 
生 的 ,并 且 与 22. 2 节 不 一 样 , 包 括 特定 个 体 固 定 效应 。 在 一 阶 差分 噜 除 固定 效应 
之 后 ,通过 22. 2 节 方 法 加 以 估计 。 

回归 模型 是 : 


Inhrs;, 一 ww 十 Blnwgz tt Bakidsi Bsagei 十 Bagesqz Bs disab;, 十 zi 


其 中 ,关注 内 容 在 于 劳动 力 供给 的 跨 期 替代 工资 弹性 P , 即 Inwg 的 系数 ,并 且 回 归 
元 分 别 是 孩子 的 数量 .年龄 .年龄 平方 以 及 无 能 力 的 指示 变量 。 

麦 柯 迪 (McCurdy，1981) 在 不 确定 条 件 下 ,利用 生命 周期 供给 模型 推导 出 这 
种 关系 。 于 是 ,此 模型 就 是 “4 常 值 ” 模 型 ,其 中 ,这 里 的 w 等 于 4;, 即 最 初 财富 的 边 
际 效 用 倍数 是 时 常 值 的 ,但 随 不 同 个 体 而 变化 。 由 于 3; 依赖 于 变量 与 约束 ,从 而 
需要 将 它 处 理 成 固定 效应 而 不 是 随机 效应 。 

22. 4. 2 节 将 进一步 讨论 的 一 种 方法 是 ,对 回归 方程 进行 一 阶 差分 ,得 出 : 


Alnhrs;, =—=P Alnwg, +B Akidsi, TB Aage 十 BAagesqz 十 房 Adisab + Au,, 
(22. 22) 


如 果 所 有 回归 元 是 外 生 的 ,那么 利用 OLS 得 到 的 估计 值 关 于 6 是 一 致 的 。 注 意 
到 ,虽然 ui 是 iid 的 ,但 这 种 差分 引起 了 误差 序列 相关 ,因此 ,应 使 用 面板 稳健 标准 
误差 。 

不 过 ,亨利 亚 元 (Ziliak，1997) 允 许 Inwgi 与 ui 成 为 同时 期 相关 的 ,原因 在 于 
工资 测量 误差 或 预算 约束 有 结 点 。 从 而 , 式 (22. 22) 的 OLS 估计 量 是 非 一 致 的 。 

齐 利 亚 克 提 出 利用 合适 滞后 回归 元 作为 工具 的 IV 人 估计。 假定 过 去 工资 与 误 
差 是 无 关 的 ,因此 , 除 与 误差 是 同时 期 相关 之 外 ,lnwg 是 给 外 生 的 。 于 是 ,对 于 ; 夺 
t 一 1 ,EL lnwgisui 二 0, 弟 售 着 差分 模型 误差 EL lnwg, Awus ] 二 0, 对 于 s 委 一 2, 所 以 
滞后 两 时 期 或 多 时 期 可 用 作 一 阶 差 分 模型 的 工具 。 注 意 到 ,这 意味 着 为 了 识别 6， 
至 少 需 要 三 个 时 期 的 最 初 数据 。 

齐 利 亚 克 的 研究 关注 于 含有 内 生 回 归 元 的 面板 GMM 估计 量 的 性 质 , 因 此 ,他 
将 式 (22. 22) 的 所 有 回归 元 处 理 成 内 生 的 ,并 用 作 其 他 四 个 回归 元 中 滞后 一 个 或 多 
个 时 期 的 工具 。 为 了 简单 起 见 , 截 距 与 时 间 虚 拟 变 量 , 以 及 只 使 用 一 次 的 时 常 值 个 
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体 工 具 都 没有 包括 在 内 。 就 包含 截 距 而 言 ,此 结果 变化 很 小 , 因为 因 变 量 是 差分 形 
式 。 由 于 Inwg, 总 是 用 作 工 具 , 所 以 前 两 年 数据 被 省 略 , 而 仅 有 1981 一 1988 年 
的 8 年 期 间 数 据 用 于 估计 式 (22. 22) 。 

表 22. 2 阐述 了 由 齐 利 亚 克 (Ziliak，1997) 的 表 1 与 表 2 给 出 许多 结果 的 一 个 
子 集 。 为 了 完整 起 见 , 已 经 给 出 各 种 标准 误差 估计 值 , 但 应 使 用 面板 稳健 标准 
误差 。 

表 22.2 小 时 与 工资 :线性 面板 模型 估计 量 * 


基准 情况 敬 放 情况 

OLS 2SLS 2SGIMM 25LS 2SGMM 
8 0. 112 0. 209 0. 547 0. 543 0. 330 
面板 se (0. 096 ) (0. 374) 《0. 327) 《0. 209 ) (0. 110) 
异 方 差 se | 0. 079 ] [ 0. 423 | | 一 | | 0. 226 | | 一 | 
默认 se {0. 023} {0. 389} ‘一 } {0,. 169 (一 》 
RMSE 0. 283 0. 296 0. 307 0. 307 0. 298 
工具 9 9 9 72 {12 
OIR 检验 一 一 5. 45 一 69. 51 
dof 一 一 - 4 一 67 
访 值 一 一 0. 244 一 0. 393 
N 4 256 4 256 4 256 4 256 4 256 


a 差分 回归 使 用 了 1981 一 1988 年 期 间 523 人 的 年 度数 据 。 报告 的 是 启 .Alnwg 的 系数 ,以 及 三 种 估计 
标准 误差 : 圆 括号 中 数值 为 面板 稳健 的 , 方 括号 中 数值 为 异 方差 稳健 的 ,而 假定 误差 的 软 认 估计 值 在 大 括号 
中 。 另 外 ,所 有 回归 元 包括 Akids、Aage、Aagesq 以 及 Adisab, 却 没有 报告 它们 的 系数 估计 。 工 具 是 滞后 两 
时 期 的 Inwg ,kids age 以 及 既 有 滞后 一 个 时 期 又 有 滞后 两 时 期 的 disab。 对 于 基准 情况 ,存在 9 个 工具 ,而 对 
于 释放 情况 ,存在 8X9 王 72 个 工具 。RMSE 表示 残 差 的 均 方 误差 平方 根 ,OIR 表示 过 度 识别 约束 检验 统计 
量 ,dof 表示 自由 度 , 而 户 值 表示 检验 的 户 值 。 


OLS: OLS 列 报告 了 式 (22. 22) 的 OLS 估计 。 甚 劳动 供给 弹性 0. 12 稍微 不 同 
于 表 21. 2 中 一 阶 差 分 列 中 的 估计 值 0. 109 ,因为 那里 还 包括 四 个 人 口 统计 变量 作 
为 回归 元 ,而 且 省 略 了 另外 一 年 的 数据 。 由 于 一 阶 差分 进行 建 模 ,其 模型 拟 合 表现 
差 , 而 包括 截 距 的 R* 是 0. 006。 

基准 情况 工具 的 2SLS: 基准 情况 中 的 工具 使 用 由 式 (22. 11) 定 义 的 Z;, 其 中 ， 
z, 拥有 9 个 元 又 : lnwg, zs，, kids;, 1,， age;, 1!1， agesqg;,: 1， disab;, |}, kids;,,_ 2, 
age;.: 2，agesqi,:-z 以 及 disab;.,-;。 于 是 ,此 模型 的 9 个 工具 是 过 度 识别 的 ,而 5 个 
参数 是 待 估 的 。B, 的 2SLS 估计 值 的 准确 性 比 OLS 估计 值 的 要 差 一 些 , 其 标准 误 
差 从 0. 096 增 大 到 4 倍 的 0.374。 对 于 其 他 回归 元 则 没有 报告 ,其 有 效 性 损失 也 不 小 。 

释放 工具 的 2SLS: 基准 情况 是 建立 在 9 个 矩 条 件 EL >,23ziui j= 二 0 基础 上 的 
GMM。 相 反 ,释放 工具 使 用 72(=8X9) 个 矩 条 件 E[zui 二 0, 1 二 3,…,10, 其 
中 ,z 如 同 基 准 情况 一 样 。 于 是 ,使 用 由 式 (22. 14) 和 定义 的 Zi ,这 里 ,Z; 表示 8 年 72 
个 工具 。Z; 的 第 i 行 是 由 式 (22. 17) 给 出 的 ,此 处 ,zi 表示 基准 情况 工具 的 9X1 列 
向 量 。 为 了 建立 工具 ,首先 生成 对 于 所 有 i 与 1 的 72 个 变量 。 变 量 ztj 等 于 0, 其 
中 ,t 表示 年 份 ,而 7 表示 第 ;7 个 工具 。 然 后 ， 当 1 一 s 时 ,就 用 zu,; 代替 zsji3; 而 当 
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t 关 s 时 , 则 令 zsji 二 0。 例 如 , 当 第 五 个 工具 为 disab, 时, 如果 t= 二 3( 第 三 年 度 )， 
那么 令 zdo 等 于 disab,.» ;而 对 于 t 3 , 令 等 于 zto 等 于 0 。 从 而 ,2SLS 估计 值 能 通 
过 Alnhrs;, 对 式 (22. 22) 中 5 个 回归 元 进行 标准 2SLS 回归 并 将 这 72 个 构造 变量 
作为 工具 来 获得 。 一 旦 利用 扩展 工具 ,就 得 到 2SLS 估计 的 标准 误差 从 0. 374 降 到 
0. 209 ,而且 是 最 初 OLS 估计 值 的 2 倍 。 

两 步 GMM: 表 22. 2 中 的 两 步 GMM 估计 值 不 同 于 齐 利 亚 克 (Ziliak，1997) 表 
1 里 的 那些 估计 值 , 因 为 此 处 由 式 (22.7) 定 义 的 S 的 面板 稳健 估计 值 用 于 建立 加 
权 和 矩阵 ,而 齐 利 亚 克 则 使 用 异 方差 稳健 S$= Nzzi。 正 如 人们 所 料 , 两 步 
GMM 估计 量 比 2SLS 更 加 有 效 , 它 的 标准 误差 从 含有 基准 工具 的 0. 374 降 到 
0. 327 ,并 从 含有 午 放 工具 的 0. 209 降 到 0. 110。 最 后 这 个 标准 误差 并 不 比 OLS 的 
大 多 少 。 

过 度 识别 约束 检验 : 关于 这 度 识别 约束 的 检验 统计 量 已 由 式 (22. 10) 给 出 。 
由 表 22. 2 知 , 基 准 情 况 和 释放 工具 的 检验 统计 量 均 具有 上 比 0. 05 更 大 的 p 值 , 因 
此 ,并 没有 拒绝 约束 ,我 们 得 出 结论 ,过 度 识别 工具 都 是 有 效 工 具 。 

弱 工 具 检 验 : 对 弱 工 具 的 诊断 已 经 在 22. 2. 4 节 与 5. 9 节 讨 论 过 。 由 于 没有 
一 个 回归 元 出 现在 工具 集合 中 ,所 以 要 使 用 源 于 第 一 阶段 回归 的 整个 下 统计 量 , 而 
不 是 回归 元 子 集 下 统计 量 。 对 于 基准 情况 工具 而 言 ,Alnwg 对 9 个 工具 与 常数 项 
进行 回归 得 出 ,面板 稳健 的 下 二 2. 80, 类 似 地 对 72 个 将 放 工具 进行 回归 ,得 出 下 = 
1. 90, 这 表明 有 限 样 偏 倚 极 有 可 能 出 现 。 对 于 Akids、Aage、Aagesq 以 及 Adisab， 
式 (22. 22) 中 一 些 回归 元 同样 被 处 理 成 内 生 的 进行 类 似 回 归 , 得 出 所 有 情况 下 F>> 
8. 5, 关 于 Alnwg 的 谢 伊 偏 R: (参见 4. 9. 4 节 ) 是 0. 003 6, 大 于 其 他 4 个 内 生 回 归 
元 的 0.075。 因 此 , 弱 工 具 问 题 归 因 于 寻找 Alnwg 的 好 工具 问题 。 

有 效 性 提高 : 在 此 例 中 ,面板 GMM 估计 量 被 用 于 控制 内 生性 。 然 而 ,即使 假 
定 所 有 回归 元 均 是 强 外 生 的 ,面板 GMM 仍 是 引 人 注 自 的 ,因为 它 比 OLS 更 有 效 ， 
除非 误差 是 iid 的 ;参见 式 (22. 20) 后 面 的 讨论 。 举 一 个 例子 ,含有 工具 的 面板 两 步 
GMM 佑 计量 设置 基准 情况 工具 以 及 式 (22. 22) 中 的 5 个 最 初回 归 元 ,得 出 B= 
0. 016 ,其 标准 误差 为 0.076 ,小 于 OLS 标准 误差 0. 096 。 


22.4 随机 效应 与 固定 效应 面板 GMM 


现在 ,我 们 通过 包括 时 和 常 值 可 加 特定 个 体 效 应 (individual-specific effect)a;, 扩 
大 面板 数据 模型 (22. 1) ,因而 有 : 


yi —a;T x Be (22, 23) 


于 是 , 式 (22. 1) 的 误差 项 现在 建 模 成 为 ui 一 a; 十 e; 。 为 了 简单 起 见 , 同 样 记号 既 用 
于 固定 效应 又 用 于 随机 效应 模型 , 如同 随机 效应 模型 一 样 的 情况 ,21.7 节 的 共同 
截 距 y 被 归 入 xi68 之 中 。 

假定 回归 元 xi 的 一 些 分 量 是 内 生 的 ,满足 EL (a; 十 ei) | 隆 0, 所 以 B 的 估计 
量 是 非 一 致 的 。 本 节 在 各 种 背景 下 ,包括 固定 效应 .随机 效应 . 固 和 证 效应 与 随机 效 
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应 的 混合 以 及 联 立 方程 ,提出 获得 6 的 一 致 估计 值 的 IV 估计 量 。 
22. 4. 1 万 谓 栅 副 应 丰 古 固定 效应 ? 


回顾 第 21 章 ,特定 个 体 效 应 a; 既 能 在 FE 模型 中 又 能 在 RE 模型 中 被 处 理 成 
随机 的 。 这 个 随机 变量 a; 与 x 在 RE 模型 中 是 独立 的 ,但 在 FE 模型 中 w 与 xi, 却 
是 相关 的 。 对 于 RE 模型 ,所 有 系数 都 是 可 估计 的 ,而 在 FE 模型 中 ,时 常 值 回归 元 
的 系数 却 不 是 可 估计 的 ,因为 一 致 估计 需要 通过 差分 去 掉 w 与 时 常 值 回归 元 。 

在 本 章 含 有 内 生 回 归 元 的 情况 下 ,我 们 认为 ,模型 是 随机 效应 模型 ,如 果 工 具 
Z, 存在 ,满足 ELZi(a; 十 ei )] 一 0。 于 是 ,22. 2 节 的 方法 将 对 所 有 回归 参数 进行 一 
致 估计 成 为 可 行 。 相 反 , 如 果 寻 找 一 些 工 具 , 使 得 E[Ziei ]=0 但 ELZia;] 关 0 是 可 
能 的 ,我 们 就 认为 此 模型 是 固定 效应 模型 。 于 是 ,必须 通过 进行 差分 去 掉 w ,在 此 
情况 下 , 仅 有 时 变 回 归 元 的 系数 将 是 可 识别 的 。 


22.4.2 夯 定 效应 模型 1VY 


石 将 21. 2 节 给 出 的 各 种 不 同 差 分 运算 应 用 到 式 (22. 23), 则 得 到 变换 模型 
(transformed model) 形 式 ，: 


Vi — Ki 十 El 


其 中 ,“~” 表 示 通 过 差分 变换 去 掉 w 的 符号 ,而 一 些 重要 例子 将 由 下 面 给 出 。 一 
旦 进行 登 放 ,我 们 得 出 : 


了 一 X.G 十 E， (22. 24) 


如 果 EL x ei | 关 0, 那 么 EL si | 天 0 而 对 式 (22. 24) 的 LS 估计 得 到 非 一 致 估计 。 

现在 倘若 工具 Z; 存在 ,满足 ELZsi] 天 0, 我 们 考察 IV 估计 ,于 是 , 式 (22. 24) 
具有 工具 Z 的 面板 GMM 估计 (ITV、2SLS 或 者 2SGMM) ,得 出 时 变 回 妇 元 系数 的 
一 致 估计 。 

获得 工具 的 一 种 方式 是 ,通过 类 似 于 模 截 面 情况 的 推理 方法 来 进行 。 有 效 工 
有 具 是 与 回归 元 相关 但 不 与 误差 相关 的 变量 ,但 也 可 通过 从 式 (22. 23) 右 边 排 除 来 进 
行 。 另 一 种 获得 工具 的 方式 是 这 里 特别 强调 的 方式 , 行 利用 22. 2. 4 市 详 述 的 外 生 
性 假设 ,运用 不 是 当前 时 期 的 一 些 时 期 外 生 回 归 元 。 

关于 工具 可 用 性 的 原始 假设 是 那些 zx, 与 s* 之 间 的 相关 假设 。 然 而 ,此 处 它 是 
z:: 与 起 作用 的 差分 误差 i 之 间 的 相关 假设 。 通 常 , 必 须 剔除 固定 效应 ,进行 差分 减 
少 可 利用 工具 的 数目 。 一 些 差分 运算 导致 的 损失 比 另 一 些 差 分 运算 要 大 一 些 , 并 
且 甚 至 能 产生 非 一 致 的 估计 。 我 们 考察 关注 弱 外 生 工 具 的 三 种 不 同 差 分 运算 。 在 
实际 应 用 中 ,尤其 是 针对 动态 模型 的 应 用 ,这 是 一 种 更 现实 的 假设 。 


一 阶 差分 IV 模型 
一 阶 差 分 IV 估计 量 是 关于 一 阶 差 分 模型 . 
yi Yi = Ki — Xi 1) B+ er ei 1)， t—2,° ,J (22. 25) 


的 IV 或 2SLS 或 面板 估计 量 。 其 弱 外 生性 假设 :ELziei ] 二 0, 对 于 s 二 i, 蕴含 着 
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ELz (ei ei;.1 一 1) 二 0, 对 于 ;s 志 1 一 1。 因 此 ,一 阶 差 分 使 得 可 利用 工具 集合 的 时 
间 序 列 缩短 了 一 个 时 期 ,所 以 仅 有 Zz. 1,z, ，… 可 作为 工具 。 当 假定 弱 外 生性 ， 
就 会 得 到 一 致 佑 计量 。 

使 用 滞后 回归 元 作为 工具 ,首先 是 由 安 德 秋 和 和 蒂 政 (Anderson and Hsiao， 
1981) 在 动态 面板 模型 背景 下 提出 的 ,而 后 由 考 尔 获 。 埃 金 . 纽 志和 罗 森 (Holtz>- 
FEakin，Newey，and Rosen，1988) 以 及 阿 雷 拉 诺 和 邦 德 (Arellano and Bond， 
1991) (参见 22. 5. 3 节 ) 加 以 推广 。 

注意 到 ;人 们 能 使 用 变换 工具 Z;, AZ = 一 .195 St 一 1]。 然 而 ， 这 样 做 并 
不 存在 什么 好 处 ,因为 利用 和 Zi 一 1 从 之 2 Zil 等 价 于 利用 2 一 119] 作为 工 
具 , 并 且 如 果 数 据 以 第 1 个 时 期 开始 ,那么 仅 能 计算 出 z1 ,而 不 能 计算 Azil 。 


组 内 或 均值 差分 IV 模型 
组 内 估计 量 是 关于 组 内 模型 或 均值 差分 模型 . 
ya 一元 一 (一 向) 3 (es —&;) (22. 26) 


的 IV 或 2SLS 或 面板 GMM 佑 计量。 于 是 ,ELzisenj 二 0, 对 于 ;二 ,不 再 蕴含 着 
Elz (ei —é&i) 一 0, 甚 至 对 于 比 : 很 小 的 ;。 为 了 理解 这 一 点 ,假定 El zse i | 尖 0, 对 
于 > 上 上。 于 是 ,ELzs,] 天 0, 对 于 所 有 s, 因 为 & 二 TT Den 包 括 了 过 去 ei ,这 与 za 
是 相关 的 。 

因而 ,车 工具 是 弱 外 生 的 ,或 若 工 具 满 足 甚至 同时 期 外 生性 的 较 弱 假设 或 求 和 
条 件 , 则 组 内 模型 的 IV 估计 导致 8 的 非 一 致 估计 。 如 果 工 具 确 定 是 强 外 生 的 ,于 
么 只 能 使 用 组 内 变换 。 

向 前 正 交 推导 IV 模型 

对 一 阶 差 分 的 一 种 可 供 选 择 方 法 是 ,同样 需要 工具 只 是 弱 外 生 的 而 不 是 踢 外 
本 的 ,此 方法 是 由 阿 雷 拉 诺 和 博 韦 (Arellano and Bover，1995) 担 出。 尽管 人 们 已 
经 广泛 使 用 一 阶 差分 ,但 我 们 还 是 要 闻 述 该 方法 。 

对 于 第 i 个 观测 值 的 生 放 模型 (22. 2) ,一 阶 差分 变换 得 出 模型 Dy, 一 DXB 十 
De; ,其 中 ,D 表示 (CT 一 1) XT 阶 和 矩阵 ,其 元 素 为 D,, i 二 1,…,T 一 1, s 二 1,…, 了 了， 
当 s 二 1 时 ,D,, 一 一 1, 当 ss 二 1: 十 1 时 ,D,, 二 1, 否 则 D,= 二 0。 关 es 是 iid 的 , 则 变换 误 
差 是 MA(1) 的 且 VLDu] 二 2DD 。 于 是 ,GLS 估计 量 利用 (DD ) “ 左 乘 De, ,或 
者 利用 (DD’ ) "2D 左 乘 s, 从 而 得 到 变换 模型 形式 (22. 24), 其中， 一 ”表示 利用 
(DD )- 一 D 左 乘 的 形式 。 

如 果 使 用 上 三 角 乔 列 斯 基 (Cholesky) 因 子 分 解法 获得 (DD ) ,这 就 得 出 向 
前 正 交 推演 模型 (forward orthogonal deviation model) : 


Ci Yi — 5 ) =c, (x —xX,) 8 十 ci (er 一 二 ) (22. 27) 


[参见 阿 雷 拉 诺 CArellano,2003, 第 17 页 ) ,| 其 中 ,ci 二 《TT 一 和 /A(T 一 t 十 1), 而 上 标 
“F” 表 示 仅 仅 使 用 未 来 值 用 于 求 平均 值 。 例 如 ,3 一 (T 一 1) riys。 

此 变换 称 为 正 交 推导 (orthogonal deviation) ,因为 变换 误差 ci(e;, 一 所 ) 具 有 单 
位 方差 且 是 无 关 的 。 添 加 形容 词 “ 向 前 ”表示 变换 误差 只 依赖 于 最 初 误差 的 当前 但 
与 未 来 值 。 对 式 (22. 27) 进 行 OLS 估计 得 到 第 21 章 的 组 内 估计 量 , 因 此 , 震 实 际 
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上 ;是 iid 的 , 则 正 交 推 叶 变 换 是 最 优 的 。 

问 前 正 交 推导 估计 量 (forward orthogonal deviation IV estimator) 是 模 型 
(22.27) 的 IV 或 2SLS 或 面板 GMM 估计 量 。 对 于 弱 外 生 工 具 , 当 s 委 # 
Fl zei ja 二 0 蕴含 着 El Zz (er —é; )] 一 0。 因此 , 癌 前 正 交 推导 并 不 会 导致 可 利用 工 
具 数 目的 损失 。 通 常 ,此 变换 不 能 应 用 于 工具 ,因为 (zi 一 Zz ) 涉及 zi 未 来 值 ,在 许 
多 应 用 中 z 与 ej; 是 相关 的 。 


22. 4.3 随机 效应 模型 IV 
关于 第 i 个 观测 值 的 症 放 模型 是 ， 
VY; 一 入; 十 eaw 二 ge， 


其 中 ,e 表示 TX1 维 单位 向 量 。 给 定 工 具 Z; 时 ,通过 直接 应 用 22. 2 节 的 面板 
GMM 佑 计量 获得 的 一 致 但 无 效 的 估计 值 ,通过 排除 性 约束 或 通过 合适 外 生性 约 
束 来 得 到 ,使 得 ELZ (ea; 十 e;)] 二 0。 这 里 ,我 们 进一步 探讨 并 考察 更 有 效 的 估计 ， 
如 同 第 21 章 一 样 , 控 制 给 定 误差 成 分 模型 wi 一 a; 十 ei 时 不 同时 间 上 的 误差 相 
关 性 。 

变换 模型 IV 估计 

假定 工具 Z; 满足 ELv; 12Z; jj 一 0 有 是 Via|Z; jj 一 0;, 其 中 ,Q; 具有 与 标准 模型 相 
同 的 形式 , 它 的 对 角 元 素 为 只 十 于 ,而 非 对 角 元 素 为 到。 注意 ,这 是 比 ELZu]=0 
更 强 的 假设 ,从 而 对 利用 工具 施加 了 约束 。 

给 定 条 件 矩 条 件 ELu |Z; j= 二 0, 由 6. 3.7 节 知 ,最 优 无 条 件 矩 条 件 是 ，; 


E[ZQ, w=ELQ, 2) (QQ 0)1=0 


这 就 导致 了 对 含有 变换 工具 Z” 的 变换 方程 组 y* 二 XB 十” 的 GMM 估计 ,其 
中 ,“x ”表示 利用 工 X 工 阶 和 矩阵 Q7 2 或 一 致 佑 计 值 Q; '” 左 乘 。 
由 21. 7. 1 节 知 , 左 乘 0 会 得 到 下 面 模 型 


Vi —Ay;= (x —A x) B+{(1 Aa (Ces 一 怎 ),)} (22. 28) 


其 中 ,A 表示 4 一 1 一 o./ Ve 十 Tg 的 一 致 估计 值 。 随 机 效应 IV 估计 量 是 具有 变换 
工具 ,一 (2 一 12;) 或 等 价 地 具有 工具 zi 一 2 与 2; 的 模型 的 IV 或 2SLS 估计 量 。 

此 模型 需要 4 的 一 致 估计 值 M。 对 于 史 ,我 们 使 用 实 王 忆 和 /NGCT 一 1 ,其 中 ， 
si 表示 源 于 组 内 回归 的 残 差 , 其 工具 为 (zz 一 2;)[ 参 见 式 (22. 26)]。 同 样 地 ， 
十 To? 能 通过 2 /N 加 以 估计 ,其 中 ,表示 源 于 3; 对 X 进行 组 内 回归 的 残 
差 ,其 工具 为 2;。 所 得 到 的 佑 计量 被 巴尔 塔 吉 (Baltagi, 1981) 称 为 误差 成 分 佑 计量 
(error components 2SLS estimator， 记 为 EC2SLS)。 

这 些 模型 均 依 赖 于 对 @ 所 设 定 的 特殊 阻 数 形式 。 一 旦 利用 式 (22. 5) ,其 中 ， 
y、 义 .Z 以 及 Ww 二 [ZZ ! 都 要 用 式 (22. 28) 中 的 变换 变量 代替 ,22. 2. 2 节 的 结果 
使 得 对 错误 设 定 来 说 是 稳健 的 估计 成 为 可 能 。 

一 个 更 重要 的 约束 是 ,只 有 最 初 工具 是 强 外 生 的 ,才能 使 用 此 方法 。 这 里 ,一 致 
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性 需要 ELZiQ， uj] 二 0, 即 比 ELZi;v;] 一 0 更 强 一 些 的 假设 ,实际 上 需要 下 Lu | 二 ] 一 
0 。 例如 ;假定 El za; | 二 0, 对 于 所 有 t ,然而 El zei |=0 对 于 Ss < 入 纪 但 E| zei |A 
0, 对 于 二 +t。 于 是 ,FLze; ] 关 0, 导 致 了 式 (22. 28) 的 含有 误差 项 工具 的 相关 性 。 


22.4.4 桶 斯 曼 一 泰 蔓 疡 台 模 型 IV 


内 生性 的 一 个 重要 例子 涉及 回归 元 与 特定 个 体 效应 a; 是 相关 的 。 这 导致 了 
第 21 章 估 计量 的 非 一 致 性 。 一 种 明显 求解 法 反而 使 用 组 内 (或 固定 效应 ) 估 计量 ， 
它 是 一 臻 的。 然而 ,时 常 值 个 体 回 归 元 的 系数 却 是 不 能 识别 的 。 这 使 得 许多 面板 
研究 的 目的 即 估计 时 常 值 回归 元 效应 受挫 ,诸如 后 学 校 教育 工资 回归 中 受 教 育 程 
度 的 效应 。 

豪 斯 曼 和 泰勒 (Hausman and Taylor，1981) 考 察 了 下 式 对 式 (22. 23) 的 变形 ， 


yz 一 XizG， 十 xz， 十 WI;Y 1 十 Wi 了 Y 2 十 ar 十 ea (22. 29) 


其 中 ,假定 一 些 回归 元 与 w 是 相关 的 ,而 另 一 些 回归 元 与 w 则 是 不 相关 的 ,同时 引 
进 w 表示 时 常 值 问 归 。 特 别 地 ,xi; 及 wu 与 a 是 不 相关 的 ,但 xz 及 wzi 与 a; 是 相关 
的 。 假 定 所 有 回归 元 与 ex 是 不 相关 的 。 在 此 模型 中 ,a; 被 认为 是 随机 效应 和 固定 
效应 的 混合 (hybriq) 。 

豪 斯 曼 和 泰勒 (Hausman and Taylor，1981) 提 出 以 两 种 方式 利用 时 变 外 生 回 
归 元 xii :为 估计 6B 与 作为 wz 的 工具 ,使 得 对 7y 的 估计 可 行 。 于 是 ,如 采 时 变 外 生 
回归 元 的 数目 等 于 或 大 于 时 常 值 内 生 回 归 元 的 数目 ,那么 7 是 可 识别 的 。 雨 宫 和 
才 柯 迪 (Amemiya and MaCurdy,， 1986) 提 出 以 ( 工 十 1) 种 方式 使 用 xi; 的 更 有 效 估 
计量 :为 估计 Bi 与 作为 wa 的 工具 , 当 dim[Lwz;j 宇 T dimLxwj] 时 , 则 可 以 识别 。 利 
用 非 当 前 时 期 的 其 他 时 期 外 生 回 归 元 作为 工具 的 方法 ,已 经 在 22. 2.4 市 详细 讨 
论 了 了。 

各 种 投影 中 有 一 些 是 等 价 的 ,能 用 于 生成 合适 的 工具 。 布 鲁 什 、 米 宗 和 施 密 特 
(Breusch，Mizon，and Schmidt ，1989) 提 供 了 人 允许 利用 2SLS 软件 包 进 行 佑 计 的 
较 简 单 前 述 与 投影 。 

首先 ,考察 忽略 (a; 十 ei ) 相 关 结 构 的 一 致 却 无 效 的 估计 。 组 内 变换 剔除 了 于 a 
的 相关 ,因此 ,Xzi 一 Xzit 一 Xz; 能 用 作 内 生 xzi, 的 工具 ，。 类 似 地 ,xii 的 工具 是 广 ; ,而 不 
是 更 明显 的 xir 。 于 是 ,Xi 用 作 内 生 wz 的 工具 ,而 内 生 wi 用 作 它 目 身 的 工具 。 

现在 ,在 随机 效应 假设 即 分 量 a; 与 sz 都 是 同方 差 的 假设 下 ,考察 有 效 估 计 问 
题 。 于 是 ,由 式 (22. 27) 知 ,随机 效应 差分 变换 [参见 式 (22. 28) 导致， 


Vi 一 Xi 1 十 2 [32 十 多 1;Y1 十 多 zi? 十 wi (22. 30) 


例如 ,这 里 ;一 Xi 一 XA; ,其 中 , 纯 量 4 的 估计 量 已 在 上 一 节 末 尾 阐述 过 。 豪 斯 
曼 一 泰勒 估计 量 等 价 于 利用 工具 ;i ;Xi ,Wi 以 及 Xi; 的 式 (22. 30)IV 估计 。 外 生 时 
变 回 归 元 xii 一 i 十 高 :用 作 两 次 工具 , 即 组 内 差分 高 用 于 x 的 工具 ,而 时 间 均 值 
用 于 w;; 的 工具 。 十 官 和 麦 柯 迪 (Amemiya and MaCurdy，1986) 反 而 使 用 工具 
Kl Kz Wiis 和 Xi， XiT 因而 是 把 xi 的 全 部 历史 而 非 时 间 均 信用 作 工 具 。 这 需 
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可 可 


要 对 于 :一 1,…,T, 有 比 ELX%ia; 二 0 更 强 的 假设 (参见 22. 2. 4 节 )。 布 鲁 什 等 人 
(Breusch et al. ，1989) 提 出 利用 x%;, 作 为 额外 工具 的 其 至 更 有 效 的 估计 量 , 对 于 
$s Ft 。 

这 种 方法 的 主要 局 限 性 是 , 它 需 要 设 定 一 些 回归 元 与 w 相关 ,或 者 不 相关 。 
在 后 受 教育 对 数 工 资 回 归 中 , 豪 斯 受 和 泰勒 以 做 出 下 述 假定 开始 :假定 所 有 三 个 时 
变 回 归 元 (经 历 . 差 的 健康 状况 .去 年 失业 ) 都 是 外 生 的 ,两 个 时 常 值 回归 元 (种 族 与 
联合 工会 ) 是 外 生 的 ,而 关注 的 时 常 值 回归 元 ( 受 教育 ) 是 内 生 的 。 这 种 设 定 存在 两 
个 过 度 识别 约束 。 模 型 设 定 检验 可 能 要 利用 基于 Br 与 Bw 之 差 的 豪 斯 曼 检验 ,不 
论 xi 与 w 的 哪些 分 量 与 a; 相关 ,因为 关于 B 的 组 内 估计 量 是 一 致 的 。 康 沃 尔 和 
鲁 珀 特 (Cornwall and Rupert，1988) 提 供 了 对 比 各 种 估计 量 的 实证 研究 。 


22. 4.5 SUR 与 详 立 方程 估计 


以 上 的 面板 数据 分 析 , 以 独立 方式 全 部 地 关注 单方 程 估 计 。 在 一 些 情况 下 ,人 
们 希望 估计 方程 组 ,诸如 需求 方程 组 ,其 中 , 因 变 量 与 回归 元 对 许多 个 体 来 说 在 一 
些 时 点 均 是 可 观测 的 。 如 果 参 数 不 存 在 交叉 方程 约束 ,那么 单方 程 佑 计 会 产生 一 
致 估计 ,但 利用 联合 方程 估计 可 能 获得 更 有 效 的 估计 ,这 里 的 联合 方程 估计 运用 了 
不 同方 程 的 误差 相关 。 

在 第 21 章 强 外 生 回 归 元 框架 下 ,更 有 效 估计 量 是 看 似 不 相关 回归 从 横 截 面 到 
面板 数据 的 推广 。 误 差 成 分 SUR 模型 (error components SUR model) 对 G 个 方程 
的 第 g 个 方程 设 定 如 下 : 


Veit 加 十 ap 十 Er ? gg=] ,GG (22. 31) 


如 同 横 截面 情况 一 样 ,as 对 于 不 同 i 是 独立 的 ,ew 对 于 不 同 i 与 1 是 独立 的 ,而 月 
oz 与 sz 是 相互 独立 的 。 然 而 ,允许 误差 成 分 对 不 同 成 分 是 相关 的 ,因此 Cov| as， 
ou ] 天 0, 且 CovlLew ,eu ] 关 0, 对 于 g 关 h4。 于 是 ,第 21 章 的 一 些 方法 会 产生 一 致 舍 
计 值 。 显 而 易 见 的 单方 程 估 计量 是 随机 效应 估计 量 , 它 是 控制 组 内 每 一 个 方程 相 
关 的 可 行 GLS。 额 外 控制 误差 交叉 方程 相关 的 更 有 效 佑 计量 已 由 埃 弗 里 (Avery， 
1977) 和 巴尔 塔 吉 (Baltagi，1980) 详 细 曾 述 过 ，。 

当 方程 组 是 联 立 方程 系统 时 ,能 建立 类 似 的 有 效 性 提高 ,其 中 , 式 (22. 31) 中 国 
归 元 x 现在 可 能 包括 来 自 其 他 方程 的 一 个 或 多 个 内 生 回 归 元 yi。 于 是 ,对 每 个 
单方 程 进行 IV 或 GMM 估计 会 得 出 一 致 估计 值 ,显而易见 ,该 佑 计量 给 出 了 诈 卷 
成 分 结构 是 22. 4. 3 节 的 随机 效应 IV 或 EC2SLS 佑 计量。 一 旦 利用 由 巴尔 塔 言 
(Baltagi，1981) 提 出 的 误差 成 分 三 阶段 最 小 二 乘法 估计 量 , 就 可 通过 系统 佑 计 来 
获得 更 有 效 的 估计 值 。 

系统 估计 量 更 加 难以 实施 ,而 对 每 个 方程 分 别 进 行 佑 计 可 能 是 恰当 的 。 不 过 ， 
即使 采用 这 一 较 简单 方法 ,在 设 定 联 立方 程 组 时 ,大 部 分 都 可 以 获得 ,因为 它 允 许 
利用 从 关注 方程 中 排除 的 作为 工具 的 外 生 回 归 元 。 这 提供 了 比 利 用 来 目 非 当前 时 
期 的 其 他 时 期 外 生 回 归 元 作为 工具 情况 更 为 传统 的 获得 工具 的 方法 。 
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22.5 动态 模型 


在 本 市 ,我 们 考察 通常 的 特定 个 体 效应 面板 数据 模型 ,其 复杂 情况 就 是 回归 元 
包括 神 后 因 变 量 。 于 是 ,模型 满足 : 


yu yy XB Ha; te , 1 一 1,*… ,NN， t=2,.** ,TI (22. 32) 


与 以 往 一 样 , 面 板 数据 是 短 的 ,并 对 于 不 同 i 是 独立 的 。 假 定 |7Y| 过 1, 即 22. 5.4 节 
所 放松 的 假设 。 

一 个 重要 丝 果 是 ,尽管 a; 是 随机 效应 ,但 式 (22. 32) 的 OLS 估计 会 产生 y 与 8 
的 非 一 致 估计 。 这 是 因为 回归 元 yi,-1 与 a; 相关 ,从 而 与 综合 误差 (a; 十 e;,) 相 关 。 
甚至 对 于 随机 效应 , 仍 需 要 一 种 可 供 选 择 的 估计 量 。 

当 a; 是 固定 效应 、| | 二 1 误差 6 是 序列 无 关 的 ,并 且 面 板 是 短 的 (参见 
22. 5.3 廊 ) 时 ,我 们 考察 其 估计 问题 。 虽 然 这 是 微观 经 济 计量 学 应 用 的 基本 情况 ， 
但 仍 存 在 大 量 文献 致力 于 对 这 些 假设 中 的 一 个 或 多 个 加 以 改进 。 更 一 般 地 ,特定 
个 体 效应 可 能 是 纯 随 机 的 ,误差 可 能 是 序列 相关 的 ,数据 可 能 是 非 平稳 的 ,而 面板 
也 可 能 是 长 面板 数据 ,但 我 们 几乎 没有 谈 及 此 类 文献 ， 


22. 5.1 真 搓 状态 相信 性 与 不 可 瑰 济 异 质 性 


在 考察 估计 之 前 ,我 们 注意 到 ,yi 的 时 间 序 列 相关 除 由 第 21 章 考 虑 的 经 由 a 
的 间接 效应 引起 之 外 ,现今 直接 由 y;.,_! 而 引起 。 这 两 种 原因 导致 了 例如 个 体 收 入 
或 接受 福利 救济 对 于 不 同时 间 相 关 的 截然 不 同 的 解释 。 

为 了 简单 起 见 , 设 如 一 和, 所 以 yi 一 Yi 十 a; 十 si o 于 是 ， El y: | Yi-1 ,ol | 
zy 十 or 并且 Corl yi ? .Jr 一] |a; |=y。 对 于 仅 由 目 相 关 参 数 y 决定 的 yz 方面 的 
不 同时 间 相 依 性 来 说 ,以 mw 为 条 件 , 关 于 AR(1) 模 型 的 标准 时 间 序 列 结 果 可 以 应 
用 。 然 而 ,a; 是 未 知 的 ,我 们 实际 上 观测 到 EL yi | yi 二 7Yyii1 十 ELa; | yi.-1j 并 
HH Cor[ yi ;Yi | 特别 地 ， 由 满足 B=0 的 式 (22. 32) 知 : 


Cor| yi 9 Vi 一 1 |]=CorL yy -1 十 ai; -ey Vi 1 (LCL. 33) 
一 7 十 CorLai , yi-1 


1 十 (1 一 Zoo/(C1L 十 7)ox 


其 中 ,第 二 个 等 式 假 定 Corl ez ?9 .1 一 1 一 0 3 而 第 三 个 等 式 在 经 过 关于 随机 效应 含有 
ez iid L0, 叶 jj 且 a; iid [90,6 jj] 的 特殊 情况 的 一 些 代 数 运 算 之 后 ,就 可 以 获得 。 
结果 式 (22. 33) 清 楚 表明 ,yi 与 yx 之 间 相 关 存 在 两 种 可 能 原因 。 
当 不 同时 间 相 关 是 因为 y;,,-1 上 一 个 时 期 决定 yi 这 个 时 期 的 因果 机 制 , 就 出 现 
了 真实 状态 相依 性 (true state dependence)。 如 果 个 体 效 应 a; 二 0, 从 而 Cor| yi， 


[1] 原著 中 该 式 ! 取 值 为 “4 一 1,…，T”, 依 据 上 下 文 判 断 , 可 能 是 一 个 印刷 错误 ,应 该 为 “1 二 2,… 
T”。 一 一 译 者 注 
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Yi! 二 7, 那 么 这 种 相依 性 是 相对 大 的 。 更 一 般 地 ,相对 于 a,o? 是 非常 小 的 ,就 
出 现 此 情况 。 

即使 不 存在 因果 机 制 , 归 因 于 不 可 观测 异 质 性 的 相关 性 出 现 ,因此 y=0, 但 当 
7 二 0 时 ,由 于 CorLy yy 一] 简化 成 至 /十 到 ) ,所 以 存在 相关 , 如同 第 21 音 
一 样 。 
两 种 极端 允许 这 种 相关 性 任意 地 接近 于 1, 因 为 它们 的 yY 一 1 或 w/o: 一 0。 不 
过 ,这 些 针 对 相当 不 同 的 政策 含义 ,给 出 了 两 种 截然 不 同 的 解释 。 关 于 在 控制 回归 
元 zi 之 后 ,收入 yi 作为 随时 间 推 移 连 续 高 的 真实 状态 相依 性 解释 是 ,未 来 收入 是 
由 过 去 收入 决定 的 ,同时 很 大 。 而 不 可 观测 异 质 性 解释 是 ,实际 上 y 很 小 ,但 重要 
变量 已 经 从 中 zz 省 略 ,从 而 导致 每 个 时 期 中 的 a; 很 大 。 对 于 持续 期 间 限 数据 来 
说 ,真实 状态 相依 性 与 不 可 观测 异 质 性 之 间 的 区 别 已 在 第 18 章 探讨 过 。 第 21 章 
的 静态 线性 面板 模型 仅仅 考虑 了 不 可 观测 异 质 性 。 


22. 5.2 标准 面 攻 估计 量 的 非 一 致 性 


如 有 霖 回归 元 包括 浏 后 因 变 量 ,甚至 在 随机 效应 模型 情况 下 ,那么 来 自 上 一 章 的 
一 些 佑 计量 者 是非 一 致 的 。 我 们 考察 由 式 (22. 32) 给 出 的 模型 估计 ,其 中 的 文献 通 
党 假定 s* 是 序列 无 关 的 。 

首 移 , 考 罕 Yi 对 Yi 1 与 xi 的 OLS 估计 。 于 是 ,误差 项 是 (a 十 €;,) ;这 与 回归 
元 yu-1 相 关 ， 因为 浪 后 方程 为 Ti 一 1 一 yi 一 2 十 Xi 1DG 十 wa 十 eic , 因而 Ji] 与 Qi 
相关 。 注 意 到 ,这 违背 了 前 面 不 带 滞 后 因 变 量 的 随机 效应 模型 OLS 估计 的 结果 ， 
从 而 yi 对 的 OLS 会 得 出 虽然 无 效 却 一 致 的 佑 计量。 同样 地 ,这 违背 了 通常 
OLS 结 采 :如 果 误 差 是 序列 无 关 的 ,那么 yi 对 yi, 一 1 的 回归 得 出 一 致 估计 值 ( 尽 管 
在 小 样本 中 出 现 偶 倚 )。 

其 次 ,考察 组 内 全 计量 , 即 (yi 一 3;) 对 (yi 一 3,-1) 与 (xi 一 xi) 进行 回归 。 该 
回归 具有 误差 项 (ex 一 e;)。 现 在 ,由 式 (22. 32) 知 ,yi 与 ei 是 相关 的 ,所 以 y,,, 与 
ei 一!1 是 相关 的 ,从 而 与 5; 相关 。 然 而 ,这 药 含 回归 元 (yi 一 37) 1) 与 误差 (es 一 8;) 是 
相关 的 。 因 此 ,组 内 模型 的 OLS 估计 会 产生 非 一 致 参数 估计 值 ,因为 回归 元 与 误 
差 项 是 相关 的 。 一 致 性 要 求 ,s; 相对 ei 而 言 变 得 非常 小 ,这 要 求 一 00, 在 长 面板 
数据 情况 下 ,会 出 现 此 条 件 ,但 在 短 面板 数据 下 则 不 会 。 重 要 的 参考 文献 是 尼克 尔 
(Nickell，1981) 。 

由 第 21 章 给 出 的 随机 效应 估计 量 也 会 产生 非 一 致 性 ,因为 这 是 组 内 估计 与 组 
间 估 计量 的 线性 组 合 。 对 于 随机 效应 模型 , 当 6 一 和 ML0,ej] 时 ,安德森 和 萧 政 
(Anderson and Hsiao，1981) 反 而 考察 ML 估 讨 ;也 可 参见 巴尔 加 瓦 和 了 萨 根 (Bhar- 
gava and Sargan，1983) 。 在 短 面板 中 ,MLE 的 分 布依 赖 于 对 yi5?} 做 出 的 假设 ， 
即 因 变 量 的 初始 值 。 安 德 条 和 背 政 (Anderson and Hsiao，1981) 对 下 述 初 始 条 件 
假设 进行 了 辨析 : (1〉 固 定 初始 观测 值 ; (2) 具有 共同 均值 的 随机 初始 观测 值 ; 


[C1] 原著 中 这 里 为 "yi.-1 一 3;”, 依 据 上 下 文 判 断 , 应 为 ^yi 一 3;”。 一 一 译 者 注 
[2] 原著 中 这 里 为 “yio” ,依据 上 下 文 判 靳 ,应 为 “yi:1”。 一 一 译 者 注 
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(3) 具有 不 同 均值 的 随机 初始 观测 值 ; (4) 具有 平稳 分 布 的 随机 初始 观测 值 。 

一 阶 差 分 估计 量 也 是 非 一 致 的 ,但 是 IV 变形 产生 了 一 致 估计 值 。 现 在 ,我 们 
阐述 该 佑 计量 。 
22.5.3 阿 和 雷 拉 态 一 郑 德 位 堪 量 

模型 (22. 32) 导 致 了 一 阶 差 分 模型 5 11: 


Vit Ji 一 1 一 yyi 1 Vi 一 2 ) 十 (Xi 一 1 ) B+ (es ~ €i,:—1 ) 9 t= 二 3 sg"**y T 
(22. 34) 


由 式 (22. 32) 知 ,因为 yi 与 &,,_1 是 相关 的 ,因而 式 (22. 34) 中 的 回归 元 (yi,,-1 一 
Yi-2) 与 误差 (ei 一 ei,,_1) 是 相关 的 ,所 以 该 OLS 估计 量 是 非 一 致 的 。 

安德森 和 和 靖 政 (Anderson and Hsiao，1981) 提 出 利用 yw 作为 ( 1 一 
Yi-2) 的 工具 估计 式 (22. 34) 的 工具 变量 估计 量 。 这 是 有 效 工 具 , 因 为 一 旦 假定 误 
差 ei 是 序列 无 关 的 ， Yi,t—2 与 (gil Et 一 1 ) 就 是 无 关 的 。 进一步 地 ， 由 于 Yi,1—2 与 
(yi 一 yc) 是 相关 的 ,所 以 它 是 一 个 好 工具 。 此 方法 需要 每 个 个 体 有 3 个 时 期 
数据 可 利用 。 一 种 可 供 选 择 的 方式 是 ,使 用 Ay.,-; 作 为 关于 Ay, 一 的 工具 。 这 将 
需要 4 个 时 期 数据 。 安 德 森 和 萧 政 (Anderson and Hsiao，1981) 阐 述 的 结果 表明 ， 
利用 作为 Ay,, ;工具 的 IV 估计 量 比 利用 y;,,-: 作 为 IV 工具 的 估计 量 更 有 效 , 如 同 
通常 情况 7 二 0 的 工具 一 样 。 上 述 两 种 之 一 情况 下 , (xi 一 xi,,-1) 作 为 其 自身 工具 ， 

利用 因 变 量 的 额外 识 后 作为 工具 ,获得 更 有 效 估 计 是 可 能 的 。 例 如 ,yi.,-; 和 
yi-3 都 可 作为 工具 。 于 是 ,此 模型 是 过 度 识 别 的 ,因此 可 通过 2SLS 或 面板 GMM 
加 以 估计 。 进 一 步 地 ,可 利用 的 工具 个 数 越 大 ,在 时 间 上 观测 的 因 变 量 就 越 接近 于 
最 终 时 期 工 。 在 第 3 个 时 期 , 仅 有 yi 可 作为 工具 ,在 第 4 个 时 期 mw 和 wz 都 可 作为 
工具 ,在 第 9 个 时 期 ， 则 有 Vil ~ .Yi2 以 太 Yi3 都 可 作为 工具 。 堆 尔 次 ” 埃 金 等 人 
(Holtz-Eakin et al. ，1988) . 阿 雷 拉 详 和 邦 德 (Arellano and Bond，1991) 都 曾 提出 
利用 这 些 较 三 泛 的 非 平衡 工具 集合 的 面板 GMM 估计 量 。 

微观 经 济 计量 学 文献 将 上 述 街 到 的 面板 GMM 估计 量 称 为 阿 雷 拉 诺 一 邦 德 估 
计量 。 一 般 方 法 已 经 由 22.4. 2 节 阐 述 , 那 里 并 没有 以 显 性 方式 介绍 其 动态 特性 。 
此 估计 量 是 : 


N NN N N 
Du 一 [| (DIXZ) WAI TE) | (XZ) Wy (2 2,) (22. 35) 
i 二 1] " i 二 ] 1 二] 1 一 ] 


其 中 ,X, 表示 (T 一 2) X(K 十 1) 阶 矩阵 ,其 第 上 行为 (Ay yyAx)，L 一 3 下， 
表示 (TT 一 2) X1 维 回 量 ,第 上 行为 Ay ,而 Z; 表示 (TI 一 2)Xr 阶 工具 矩阵: 


7; 0 J. 0 
0 Zi4 : 
及 一 。 。 (22. 36) 
: .0 
0 0 Zr 
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这 里 ,zi 二 [ yy sAXi]。 此 外 ,xi 或 Axi 的 滞后 项 能 用 作 工 具 , 而 且 
对 于 适度 的 或 大 工 来 说 ,可 能 存在 y 的 最 大 滞后 作为 工具 ,例如 并 不 大 于 y,,_1。 
两 阶段 LS 与 两 步 GMM 对 应 于 不 同 的 加 权 和 矩阵 (参见 22. 2. 3 节 )。 

此 方法 很 容易 适应 AR(p) 模 型 ,只 是 式 (22. 32) 中 的 yy 代替 y2y;,,_ 十 
Y2 Viz ty py it—p ; 尺 管 为 了 使 一 致 估计 可 行 , 就 需要 多 于 3 个 时 期 数据 。 

22. 3 蔬 的 实证 例子 本 质 上 是 阿 雷 拉 诺 一 邦 德 估计 例子 ,因为 一 阶 差 分 模型 可 
通过 含有 沛 后 回归 元 用 作 工 具 的 IV 加 以 估计 。 

阿 和 施 密 特 (Ahn and Schmidt，1995) 注 意 到 ,利用 额外 和 矩 条 件 可 能 获得 更 有 
效 估计 。 考 察 式 (22. 32) 的 纯 时 间 序 列 形式 ,其 中 B8 一 0, 同 时 做 出 标准 假设 , 即 es 
与 ai ex 以 及 初始 观测 值 yi 是 无 关 的 ,对 于 ;了 关 :。 阿 雷 拉 诺 一 邦 德 估 计量 使 用 了 和 矩 
条 件 EL y; Aui 二 0, 对 于 s 二 1 一 2, 其 中 ,wi 二 6i 十 a;。 阿 和 施 密 特 (Ahn and 
Schmidt，1995) 通 过 利用 额外 矩 条 件 ELuir Ar ] 二 0 得 到 了 更 有 效 估 计量 。 他 们 
已 经 证 明 , 这 种 佑 计量 有 效 运 用 了 二 阶 矩 条 件 , 它 渐 近 等 价 于 张伯伦 CChamber- 
lain，1982,1984) 的 最 优 最 小 距离 估计 量 。 

额外 假设 寻 致 了 额外 和 矩 条 件 , 从 而 产生 更 有 效 估 计 。 一 旦 假定 sz* 同方 差 性 ,如 
果 Viej 二 Vle;j], 那 么 ELiAui j= 二 0 参见 阿 和 施 密 特 (Ahn and Schmidt， 
1995)]。 阿 雷 拉 诺 和 博 韦 (Arellano and Bover，1995) 提 出 了 对 于 迄 上 一 1, 利 用 条 
件 ELwAys]=0 。 布 伦 德 尔 和 邦 德 (Blundell and Bond，1998) 考 察 了 这 些 假设 和 
额外 假设 ,同时 证 明 其 益处 是 很 大 的 ,特别 是 当 y 是 高 的 旦 工 是 小 的 时 候 。 阿 雷 拉 
诺 和 霍 诺 尔 (Arellano and Honore，2001) 闸 述 了 可 能 做 出 的 各 种 假设 以 及 相应 的 
可 用 于 估计 的 和 矩 条 件 。 

姑 政 、 佩 陕 兰 和 塔 赫 米 斯 吉 奥 卢 (Hsiao，Pesarn，and Tahmiscioglu，2002) 提 
出 变换 ML 佑 计量 (transformed ML estimator) 。 假 定 ;服从 iid AT0, 吧 ], 可 以 放 
松 这 一 假设 。 其 原因 不 是 源 目 基于 86，…,eit 似 然 , 而 是 源 自 基于 误差 差分 
As ,Ae;T 似 然 。 对 于 纯 时 间 序 列 AR(1) 模 型 ,As 一 Aw 一 yAyw， 对 于 三 1， 
Asil 的 密度 依赖 于 对 初始 条 件 所 做 出 的 假设 :或 者 As 二 Ayi 或 者 Aeil 二 Ayii 一 b， 
其 中 ,5 二 ELAyii ] 表示 待 估 的 另外 参数 。 即 使 6; 是 非 正 态 的 ,所 得 到 的 估计 量 仍 
是 保持 一 致 性 的 拟 MLE。 如 有 果 ei 服从 iidLo,c ] ,那么 与 前 面 的 GMM 估计 量 相 
比 ,变换 MLE 更 为 有 效 。 


22. 5.4 胡 方 差 结构 舍 计 


协 方差 结构 是 对 回归 误差 的 协 方差 矩阵 的 结构 加 以 设 定 的 模型 。 一 些 应 用 包 
括 误差 动态 特性 与 测量 误差 的 结构 。 是 的 是 要 估计 结构 参数 。 
举 一 个 例子 ,假定 yi 是 由 含有 MA(1) 误 差 的 随机 效应 模型 所 生成 的 ,因此 ， 


Yi =@Q;Ten t pes! 
其 中 ,Qi ~ {0,0 |,ei ~L0,0 |, ] $|=1。 从 而 ,其 目 协 方差 y; = Cov[ yi , yi; ， 
满足 % 二 十 (十 )6? ,Xi 二 十 ga? ,并 且 ;二 2 ,对 于 ;之 2。 当 TT 一 3 时 ,这 些 
式 子 就 产生 了 给 定 自 协 方差 估计 值 六 方 、 衣 时 的 估计 值 至 6: 以 及 $5。 当 T>3 
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时 ,那些 模型 是 过 度 识别 的 ,因为 要 估计 3 个 以 上 协 方差 , 却 仅 有 3 个 方差 参数 。 
一 个 明显 的 估计 量 是 最 小 距离 估计 量 。 

通常 , 设 8 表示 9 个 结构 参数 ,同时 假定 g(0) 二 了; 其 中 ,二 [Yo,…,Yr-) ] 表 
示 了 之 gq 个 目 协 方差 向 量 。 于 是 ,最 小 距离 估计 量 是 对 : 


QN(9) 一 (了 一 g(9)) Wn —g(0)) (22. 37) 
求 极 小 值 , 其 中 9 了 =|[ 7 9 ,yr ,日 : 


方 一 LNGIT 一 站 六 > ， >》, (ya Vi) Yi Yee) (LL. 38) 
而 3 二 和 N22iyii-js6.7 节 已 经 提供 了 加 权 甜 阵 Ww 以 及 有 关 MD 估计 的 进 一 
步 详细 内 容 。 此 模型 的 约束 ,可 通过 由 6. 7 节 给 出 的 卡 方 检验 统计 量 来 加 以 检验 。 
驶 此 范围 来 说 ,这 种 讨论 已 经 对 协 方差 平稳 性 施加 了 约束 。 更 一 般 地 ,人 们 能 够 允 
许 7 关 Ys ， 对 于 上 天 ,其 中 , 一 CovLy ys 门 。 于 是 ,7 拥有 TCT 十 1)/2 个 元 
素 7 ,it 二 7 十 1,…, 丁 , ] 二 0,…, 了 一 1。 该 平稳 性 假设 本 身 是 可 检验 的 假设 。 此 
外 ,一 些 回归 元 可 通过 用 残 差 光一 鸡 B 代 替 yx 而 得 以 并 人。 

阿 博 特 和 卡 德 (Abowd and Card，1989) 提 供 了 早期 的 这 一 方法 应 用 于 工资 与 
工时 的 联合 建 模 。 奥 尔 顿 吉 和 西 格 尔 (Altonji and Segal，1996) 证 明了 ,在 有 限 样 
本 中 ,最 优 MD 估计 量 是 相当 有 偏 的 (参见 6. 3. 5 节 )。 许 多 应 用 都 是 利用 工资 进 
行 建 模 ; 参 见 贝克 和 索 伦 (Baker and Solon，2003) 最 新 例子 。 

MD 方法 更 适合 于 对 协 方差 结构 进行 估计 。 面 板 数据 集 可 能 是 很 大 的 ,但 首 
先 借助 于 对 协 方差 加 以 估计 ,该 估计 简化 成 对 式 (22. 37) 求 极 小 值 。 其 他 一 些 方法 
是 可 行 的 。 特 别 地 ,参见 麦 柯 迪 (McCurdy，1982b) ,他 痢 述 了 面板 数据 的 博克 
斯 一 詹金斯 形式 模型 ，。 


22. 5.5 非 平稳 面 枯 


有 关 单 位 根 与 非 平 稳 的 面板 文献 强调 N 和 了 都 很 大 的 面板 。 关 于 单位 根 检 
验 , 早 期 的 重 归 论文 是 由 芋 文 和 林 (Levin and Lin，1992) 完 成 ,但 最 终 却 由 菜 文 、 
林 和 朱 (Levin，Lin and Chu，2002) 发 表 ; 佩 陕 兰 和 中 密斯 人 (Pesaran and Smith， 
1995) 扎 写 了 早期 考察 协 整 (cointegration) 的 论文 。 菲 利 普 斯 和 穆 恩 (Phillips and 
Moon，1999) 以 及 佩 德 罗 尼 (Pedroni，2004) 都 提供 用 于 非 平 稳 面 板 数据 的 一 般 推 
汤 理 论 。 利 用 时 序 极 限 理论 的 分 析 是 最 简单 的 , 其 中 比如 说 ,首先 固定 N, 生 
全 >co, 随 后 N 一 co。 更 稳健 的 方法 是 ,使 用 联合 极限 ,其 中 ,T>co 且 N->oo。 最 新 
文献 评述 ,包括 菲利普 斯 和 穆 恩 (Phillips and Moon，2000) 以 及 巴尔 塔 寺 (Baltagi， 
2001 ,第 12 章 )。 

对 短 面板 的 非 平 稳 数 据 来 说 ,所 做 的 研究 还 不 多 ,有 待 于 进一步 探索 研究 。 哈 
里 斯 和 察 韦 里 斯 (Harris and Tzavalis，1999) 考 察 了 短 面 板 的 沫 文 和 林 (Levin and 
Lin, 1992) 单 位 根 检验 。 设 了 表示 AR(1) 固 定 效 应 模型 yi 二 ai 十 Yyi-1 十 ei 中 的 
y 组 内 估计 值 ,其 中 ,e; ~iid NL0,e?]。 我 们 考察 单位 根 的 零 假 设 ,因此 > 一 1, 并 且 
没有 截 距 a; 二 0 ,这 对 应 于 了 哈密 尔 顿 (Hamilton，1994, 第 490 页 ) 的 纯 时 间 序 列 的 
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第 二 种 情况 。 在 零 假设 下 , 当 工 周 定 且 N 一 时 ,单位 根 检验 统计 量 是 ， 


一 d 
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这 个 统计 量 阁 有 很 大 负 值 , 则 拒绝 单位 根 假设 。 莱 文 和 林 (Levin and Lin,，1992) 
提供 了 男 一 些 检 验 , 诸 如 具有 个 体 时 间 趋 势 的 模型 。 

宣德 、 送 政和 佩 萨 兰 (Binder，Hsiao，and Pesaran，2003) 考 察 含 有 单位 根 与 
协 整 的 固定 效应 动态 模型 的 短 面 板 人 和 估计。 对 单位 根 而 育 , 阿 雷 拉 诺 -- 邦 德 估 计量 
是 非 一 致 的 ,尽管 阿 和 施 密 特 (Ahn and Schmidt，1995) 已 做 出 一 些 推广 ,但 由 
22. 5. 3 广 结 尾 讨论 的 其 他 估计 量 却 产生 了 一 致 估计 量 。 宾 德 等 人 (Binder et al.， 
2003) 曾 提出 拟 ML 估计 量 , 当 对 单位 根 加 以 讨论 时 ,该 估计 量 在 有 限 样本 中 表现 
民 好 。 


22.6 差异 中 差分 佑 计量 


第 25 章 将 要 阐述 的 评估 文献 关注 于 测算 处 理 效应 ,在 最 简单 情况 下 ,如果 处 
理发 生 ,那么 单个 二 值 回 归 元 的 影响 或 边际 效应 等 于 1; 如 果 处 理 不 发 生 , 那 么 回 
归 元 的 影响 或 边际 效应 等 于 0。 例 如 ,关注 内 容 在 于 测算 政策 变化 (二 值 处 理 ) 对 
工资 的 效应 ,政策 变化 涉及 变动 税率 或 福利 ,或 者 某 些 人 接收 培训 , 而 另 一 些 人 则 
没有 。 

在 本 节 ,我 们 涉及 第 25 章 与 面板 方法 有 关 的 方法 。 特 别 是 ,如 果 在 处 理 前 后 
有 面板 数据 可 以 利用 ,同时 并 不 是 所 有 的 个 体 者 都 接收 处 理 , 那 么 处 理 效应 就 能 利 
用 标准 面板 数据 方法 加 以 测算 。 于 是 , 辕 定 效应 模型 的 一 阶 差分 佑 计量 就 简化 成 
简单 的 估计 量 , 称 为 差异 中 差分 估计 量 ,这 已 在 3. 4. 2 节 引 和 人 ,并且 将 在 25. 5 节 继 
续 研 究 。 后 一 种 估计 量具 有 下 述 优点 , 即 当 存在 重复 横 截 面 数 据 而 不 是 面板 数据 
可 以 利用 时 ,同样 可 以 运用 它 。 然 而 , 它 确实 依赖 于 经 常 不 是 以 显 性 方式 做 出 的 模 
型 假设 。 这 里 的 研究 遵循 布 伦 德尔 和 麦 柯 迪 (Blundell and MaCurdy，2000) 的 线 
索 展开 . 


22. 6. 1 售 有 二 从 人 处 理 的 固定 效应 
设 关注 的 二 值 回 归 元 是 : 
_ /1， 若 个 体 i 在 t 时 期 接受 处 理 
0， 其 他 
假定 关于 yi 的 周 定 效 应 模型 满足 : 
yi = $Di To Ta; te (22. 40) 
其 中 ,6, 表示 特定 时 间 固 定 效应 ,而 ww 表示 特定 个 体 固定 效应 。 正 如 21. 2. 1 节 提 


及 的 ,这 等 价 于 yi 对 Di 与 含有 特定 个 体 固定 效应 复杂 情况 的 所 有 时 间 虚 拟 变 量 
集合 的 回归 。 为 了 简单 起 见 ,没有 其 他 回归 元 。 


(462. 39) 


下 
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ro 


个 体 效 应 a; 可 通过 一 阶 差 分 加 以 噜 除 。 于 是 ,有 : 
Ayi = $ADi tT 6,—6,-1) Ae;, (22. 41) 


处 理 效应 $ 能 借助 于 Ays 对 AD, 与 所 有 时 间 虚 拟 变量 集合 的 混合 回归 得 到 一 致 
舍 计 . 


22. 6.2 差异 中 差分 


现在 ,考察 只 有 两 个 时 期 的 特定 化 情况 。 进 一 步 地 ,假定 处 理 仅 仅 发 生 在 第 2 

个 时 期 ,所 以 在 第 1 个 时 期 ,对 于 所 有 个 体 ,D; 一 0, 并 在 第 2 个 时 期 ,对 于 已 处 理 

个 体 ,Di 二 1, 而 对 于 未 处 理 个 体 , D;; 一 0。 于 是 ,下 标 t 可 从 式 (22. 41) 中 省 上 略 ， 
从 而 : 

Ay 一 g&D 十 Su (22. 42) 


其 中 ,D; 表示 二 值 处 理 变量 ,表明 个 体 是 否 接收 处 理 。 

处 理 效应 可 通过 Ay 对 截 距 与 二 值 变量 回归 元 D 进行 回归 而 得 以 估计 。 将 
Ay" 定 义 成 已 处 理 (D; 二 1) 的 样本 平均 ,而 将 Ay" 定 义 成 未 处 理 (D; 二 0) 的 样本 平 
均 。 于 是 ,估计 量 简 化 成 : 


8 一 A 殉 一 Ag (22 43) 


此 估计 量 称 为 差异 中 差分 佑 计量 (differences-in-differences estimator， 记 为 DID)， 
因为 人 们 对 已 处 理 组 与 未 处 理 组 的 时 间 差 异 进行 估计 ,然后 对 时 间 差 异 取 差分 。 

此 佑 计量 由 于 直观 简单 而 引 人 注 自 。 男 外 , 它 能 从 面板 数据 推广 到 两 个 时 期 
各 个 横 截 面 数据 均 可 利用 的 情况 。 在 第 2 个 时 期 ,计算 已 处 理 组 与 未 处 理 组 的 平 
均值 y 与 到 。 类 似 地 ,可 计算 出 第 1 个 处 理 前 时 期 的 平均 值 y 与 束 。 这 里 假 
定 第 1 个 时 期 中 个 体 是 否 适宜 处 理 是 可 识别 的 。 例 如 , 硅 处 理 仅仅 应 用 于 妇女 ,而 
且 可 以 利用 性 别 数 据 , 则 很 容易 实施 。 于 是 ,计算 . 


$= (I — 3)— (v2 —yY) (22. 44) 
举 一 个 例子 ,倘若 适宜 处 理 组 的 年 工资 在 处 理 前 为 10 000, 而 在 处 理 后 为 13 000， 
则 至 一 严 王 3 000。 类 似 地 ,如 果 不 适宜 处 理 组 的 年 工资 在 处 理 前 为 15 000 , 而 在 


处 理 后 为 17 000 ,那么 弄 一 一 2 000。 从 而 ,处 理 效应 的 估计 量 y 等 于 3 000 一 
2 000 一 1 000。 


22. 6.3 差异 中 考分 的 假设 基础 


前 面 的 DID 佑 计量 公式 为 了 得 到 $$ 的 一 致 佑 计 , 已 做 出 了 明显 的 基本 假 议 。 

首先 ,假定 时 间 效 应 6 对 于 不 同 的 已 处 理 个 体 与 未 处 理 个 体 来 说 都 是 共同 
的 。 例 如 ,时 间 趋 势 可 因 性 别 而 不 同 ,在 此 情况 下 , 知 处 理 依 赖 于 性 别 ,识别 $ 就 会 
有 问题 。 不 论 是 使 用 面板 数据 ,还 是 使 用 横 截 面 数 据 ,都 需要 共同 趋势 假设 。 

其 次 , 若 使 用 横 截面 数据 , 则 假定 已 处 理 组 与 未 处 理 组 的 合成 部 分 在 变动 前 后 
均 是 稳定 的 。 就 面板 数据 而 言 , 进 行 差分 会 旭 除 固定 效应 。 就 重复 横 截 面 数据 而 
言 , 最 初 模型 (22. 40) 蕴 含 着 3 一 $ 十 6. 十 ar 十 er 与 77 一 十 ar 十 Er 。 倘 看 处 理 只 
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在 第 2 个 时 期 发 生 , 由 此 可 得 : 

区 一 (32 一列) 一 (下 一 列 ) 十 (本 一 下) 一 ( 营 一生 ) 十 了 
其 中 ,v= 二 (ez 一 2 ) 一 (a2 一 a? )51)。 如果 plim(ay 一 &*) 二 0 县 plim(a™ 一 a™) 二 0, 那 
么 出 现 式 (22. 44) 中 y 的 一 致 性 。 若 处 理 指派 是 随机 的 , 正 是 此 种 情况 。 可 是 , 事 
实 并 不 经 常 如 此 。 


22. 6.4 更 多 模型 


只 是 处 理 指示 变量 与 时 间 虚 拟 变量 。 通 过 对 数据 进行 分 组 ,特定 个 体 效 应 至 少 允 
许 在 不 同 组 平均 值 上 各 不 相同 ,一 般 方法 是 估计 : 
Vigt ¢$D;s 十 8 十 wa 十 ea 


其 中 8 表示 第 s&s 个 组 。 
在 DID 估计 的 经 典 例子 中 , 卡 德 (Card，1990) 研 究 了 从 古巴 突然 涌 入 迈阿密 
”的 移民 对 低 收 入 工人 失业 的 效应 。 这 个 例子 同样 被 安 格 里 斯 特 和 克 鲁 格 (Angrist 
and Krueger，1999) 评 述 。 阿 西 和 英 伯 斯 (Athey and Imbens，2002) 讨 论 了 非 线 性 
模型 的 推广 。 


22. 7 重复 模 截 面 与 伪 面 板 


面板 数据 的 重要 潜在 优势 , 源 自 不 同时 间 能 观测 到 对 象 目标 。 这 使 得 控制 不 
可 观测 个 体 异 质 性 、 初 始 条 件 差异 以 及 结果 的 动态 相依 性 成 为 可 能 。 然 而 ,在 许多 
情况 下 ,并 不 可 以 利用 名 副 其 实 的 面板 数据 。 


22.7.1 重复 械 截 面 


我 们 考察 如 下 问题 当 数 据 是 几 个 重复 横 截面 时 ,这 里 的 重复 横 截 面 来 自 一 系 
列 独 立 样 本 调查 的 啊 应 ,独立 性 意味 着 每 一 个 对 象 目标 只 出 现在 一 个 调查 之 中 。 
一 个 例子 是 类 国家 庭 支出 调查 , 它 收 集 了 大 量 家 庭 支出 数据 年 度 样本 ,但 每 一 年 都 
苗 查 不 同 家 性 。 并 且 ,如 果 仅 有 非常 短 面 板 是 可 以 利用 的 (比如 工 王 2) ,那么 来 目 
重复 横 和 截面 的 数据 就 引 人 人 注目, 假如 它们 可 生成 较 大 且 较 丰富 的 样本 。 

对 于 随机 效应 模型 来 说 ,重复 横 截 面 数 据 并 没有 提出 什么 挑战 。 人 们 可 直接 
实施 yi 对 混合 回归 (参见 21.5 节 ) ,而 统计 推断 实际 上 得 到 简化 ,由 于 此 处 误差 
婚庆 于 i 又 关于 t 均 是 独立 的 ,所 以 只 有 和 针对 异 方 差 性 , 才 需 要 加 以 修正 。 

然而 ,对 于 固定 效应 来 说 ,混合 回归 会 导致 非 一 致 参数 估计 值 。 进 一 步 地 , 如 
果 个 体 仅 仅 在 一 个 时 点 上 是 可 观测 的 ,那么 一 些 可 供 选 择 方法 ,诸如 组 内 或 一 阶 差 
分 估计 均 是 不 可 行 的 。 在 本 节 , 重复 横 截 面 数 据 用 于 建立 伪 面 板 (pseudo panel) 或 


C1] 原著 中 该 式 为 v 一 (好 一 是) 一 ( 钨 一) 依据 上 下 文 判断 ,应 为 z 一 (请 一 十) 一 (如 一 嫩 )。- 一 
译 者 注 
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综合 面板 数据 (synthetic panel data) ,这 类 数据 拥有 真正 面板 数据 的 某 些 优点 ,最 
值得 注意 的 是 控制 固定 效应 的 能 力 。 特 殊 情 况 是 22. 6 节 已 阐述 的 DID 估计 量 。 


22.7.2 作画 术 


布 朋 宁 . 迪 顿 和 艾 里 什 CBrowning，Deaton，and Irish，1985) 在 基于 英国 家 庭 
文 出 调查 的 实证 研究 时 ,考察 了 用 于 分 析 重 复 横 截面 数据 的 一 些 方法 。 他 们 提出 
将 个 体 水 平 数 据 转 换 成 组 类 水 平 (cohort-level) 数据 。 尽 管 个 体 家 庭 支 出 不 能 随时 
间 流 逝 而 加 以 三 放 ,但 对 由 一 些 个 体 构 成 的 组 类 却 可 能 这 样 做 。 

组 类 (cohort) 被 定义 成 “具有 固定 从 属 关 系 的 组 ,那些 在 调查 中 可 被 排列 起 来 
检查 上 且 可 识别 的 个 体 ”[ 迪 顿 (Deaton,1985, 第 109 页 )]。 一 个 例子 是 年 龄 组 类 , 诸 
如 在 1965 一 1970 年 之 间 出 生 的 男性 。 对 于 大 样本 ,连续 不 断 的 调查 将 会 生成 每 个 
组 类 成 员 的 随机 样本 。 

组 类 样本 平均 时 间 序 列 能 够 形成 回归 模型 的 基础 。 基 于 组 类 数据 的 综合 面板 
能 否 代 替 真 正面 板 数 据 是 一 个 关键 问题 。 重 复 横 截面 专题 研究 此 类 模型 的 推 央 方 
法 。 这 里 ,我 们 关注 静态 伪 面 板 模型 。 科 拉 多 (Collado，1997 ) 与 吉尔 马 (Girma， 
2000) 还 考察 了 动态 情况 。 

起 点 是 含有 个 体 固定 效应 w 的 静态 线性 回归 , 它 建 立 在 工 个 连续 不 断 的 横 截 
面 基础 上 : 


Vi =Qg; 十 Xi,B 二 ui， [一 1 (22. 45 ) 


假定 解释 变量 关于 关注 参数 8 是 强 外 生 的 ,因而 ELxiiui] 二 0, Vi,s。 为 了 简单 起 
见 , 假 定 对 每 个 横 截 面 都 有 N 个 观测 值 可 以 利用 。 每 一 个 个 体 仅仅 在 一 个 时 期 可 
以 观测 到 ,所 以 特定 个 体 效应 a; 不 能 借助 于 对 个 体 水 平 数据 进行 差分 而 剔除 。 

设 g 表示 下 述 随 机 变量 ,对 于 每 个 i, 它 决定 组 类 从 属 关系 ,使 得 i 属于 c 类 ， 
当 且 仅 当 g; 属于 集合 I.。 假 定 存 在 C 个 组 类 ,而 c 表示 组 类 下 标 , c 二 1,…,C。 车 
取 以 g; 为 条 件 的 期 望 ,得 出 : 


Ely |g:€ElL l=ELa|g;EII+Ex |g; ETB+ELu gEL] (22.46) 
这 就 生成 了 模型 (22. 45) 的 组 类 总 体 (cohort population) 形 式 , 它 由 
=a t+ Btw (22. 47) 


给 出 。 其 中 ,“ * ”号 表示 不 能 观测 到 的 组 类 总 体 平均 。 例 如 ,二 El yi |g; El1j，, 

参数 a: 一 ELa |g; EE 1 J 二 表示 组 类 固定 效应 (cohort fixed effect) 。 在 固定 效 
应 情况 下 做 出 的 一 个 重要 假设 是 ,总 体 是 平稳 的 ,因此 ,a: 能 被 假定 成 随时 间 变 化 
而 为 常 值 。 这 在 性 质 上 类 似 于 22. 6. 3 节 结 尾 做 出 的 DID 佑 计量 一 致 性 需要 的 假 
设 。 在 通常 的 弱 外 生性 假设 下 ,EL 1x | 二 0。 不 过 ,如 果 最 初 模型 (22. 45) 中 的 
ui 与 x 是 相关 的 ,那么 不 可 观测 固定 效应 w 将 与 相关。 进行 估计 时 ,就 需要 控 
制 固定 效应 。 

在 实际 应 用 中 ,组 类 总 体 均值 是 不 能 观测 到 的 ,不 过 ,我 们 以 组 类 时 间 平 均 5 
与 来 开始 研究 。 于 是 ,此 回归 为 : 


2 线性 面板 模型 :扩展 


Va =—a, 二 XB + i ， 5 一 人， 1 一 1]，… 了 (22. 48 ) 


上 述 步骤 引入 了 额外 误差 来 源 ,因为 3. 与 x 都 是 组 类 总 体 平均 的 误差 污染 估 
计 值 8 2 


4 =y, 十 éé, (22. 49) 
Ct — xX, 二 


如 果 测 量 误差 是 非常 小 的 ,这 归 因 于 每 个 时 期 每 一 个 组 类 的 观测 值 数目 都 相 
当 大 ,那么 5 二 yi 且 X% 一 X ,从 而 忽略 其 测量 误差 。B 的 一 致 估计 和 值 能 借助 于 式 
(22. 48) 的 组 内 估计 来 获得 ,也 就 是 说 , (36 一 了 .) 对 (3% 一) 进行 OLS 回归 ,其 中 ， 
FT Ia KT 1, Xe 

不 幸 的 是 ,测量 误差 往往 由 于 太 大 而 不 能 被 忽略 。 于 是 , 当 a 为 随机 效应 时 ， 
式 (22. 48) 的 组 内 估计 或 式 (22. 48) 的 OLS 估计 均 会 产生 8 的 非 一 致 估计 值 。 相 
反 ,需要 使 用 变量 误差 估计 量 。 由 于 个 体 水 平 数 据 会 产生 测量 误差 矩 的 必要 估计 
值 ,所 以 此 处 能 实施 这 类 估计 量 , 参 见 26. 3. 3 节 。 


22.7.3 伪 面 放 的 测量 误差 仿 计 量 


对 测量 误差 的 经 典 求 解 是 使 用 重复 观测 值 来 估计 测量 误差 的 协 方差 ,然后 在 
应 用 最 小 二 乘法 之 前 使 用 这 些 估 计 值 去 "校正 ”污染 误差 变量 的 样本 和 矩 (参见 
26. 4. 4 节 )。 迪 顿 (Deaton，1985) 提 出 在 当前 背景 下 使 用 此 方法 。 

假定 个 体 观 测 但 满足 下 述 方 程 : 


Vit 一 yc Te 

Xi 一 Xc 十 他， 
背景 设置 类 似 于 26. 2. 1 节 的 背景 ,只 是 因 变 量 还 存在 测量 误差 ,同时 假定 对 于 给 
定 c 组 类 中 的 任何 个 体 ,有 : 


-io le 2] 
~—1ld 9 
好: 0 01 2 


(五 ,ao ) 的 样本 估计 值 记 为 (了 ,oo ) ,给 定 (7, ,总 , ) 时 可 利用 所 有 个 体 水 平 数 据 来 获 
得 。 记 dd. 表示 对 应 于 固定 效应 a (参见 21. 2. 1 节 ) 虚 拟 变 量 的 CX1 维 列 向 量 ,很 
明显 这 是 一 个 不 受 估计 误差 限制 的 回归 元 向 量 。 于 是 ,倘若 充分 大 有 旦 其 逆 存 
在 , 当 CT->co 时 , 则 何 归 : 


Qa C 了 dd. dx 二 二 d/y ci 
| BD 2 wg Ks, KX, | b> 2 四 一 Gol 
将 给 出 组 类 回归 的 一 致 估计 。 这 个 估计 量 与 26. 3. 4 节 所 给 出 的 一 样 ,只 需 进 行 适 
当 修 改 , 因 为 此 处 5 也 是 含有 误差 且 可 以 简化 的 测量 ,其 原因 在 于 仅 有 回归 元 的 
子 集 是 含有 误差 的 测量 。 维 比 克 和 尼 吉 曼 《Verbeek and Nijman，1992) 对 抽样 性 


质 提供 了 更 详细 的 讨论 ,而 迪 顿 (Deaton，1985) 曾 述 了 方差 估计 。 还 可 以 参见 维 
比 序 (Verbeek，1995) 。 


到 | 《| 


| (22. 50) 
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上 述 佑 计量 通过 估计 最 小 二 乘法 虚拟 变量 模型 ,本 质 上 控制 组 类 固定 效应 ,一 
旦 利用 由 26. 3. 4 节 给 出 的 估计 量 , 可 借助 复制 数据 调整 测量 误差 。 

科 拉 允 (CCollado，1997) 考 察 了 一 种 利用 一 阶 差 分 剔除 组 类 效应 的 可 供 选 择 的 
方法 ,然后 通过 工具 变量 估计 对 测量 误差 加 以 控制 ,而 26. 3. 2 节 将 给 出 一 种 可 供 
选择 的 识别 测量 误差 的 策略 。 

把 式 (22. 49) 代 入 式 (22. 47) ,得 出 : 

ya —é, =—a 二 (Xv) Btw 
Vu = 十 ,6B 十 veo, 


其 中 ,误差 ww 三 必 十 ocxG 十 & 。 运 用 一 阶 差分 剔除 … ,得 到 : 
Ays 一 AXiB 十 Aro。， [一 2 (22,51]1) 


现在 ,由 于 测量 误差 项 的 缘故 ,解释 变量 AX, 将 与 Ar 相关 ,从 而 若 应 用 最 小 二 乘 
法 ,将 产生 非 一 致 估计 。 一 致 估计 能 通过 基于 外 生变 量 滞后 项 即 X,,_! 的 IV 估计 
来 获得 。 这 种 方法 具有 下 述 优点 : 它 可 以 推广 到 含有 滞后 因 变 量 的 模型 上 。 详 细 
内 容 参 见 科 拉 多 (Collado，1997)。 


22.8 混合 线性 模型 


被 经 济 计 量 学 家 称 为 随机 效应 的 模型 ,只 是 将 截 距 系 数 设 定 成 随机 的 。 更 丰 
贸 的 随机 效应 模型 ,广泛 用 于 应 用 统计 学 的 其 他 领域 ,这 类 模型 额外 地 允许 斜率 参 
数 是 随机 的 。 在 本 节 ,我 们 阐述 混合 线性 模型 一 一 也 称 为 混合 效应 模型 .分 层 模型 
或 多 水 平 线性 模型 (参见 第 24 章 ) .随机 效应 模型 以 及 方差 成 分 模型 。 

这 些 模型 应 用 在 使 混合 OLS 佑 计量 仍 为 一 致 的 背景 下 。 特 别 地 ,不 存在 固定 
效应 。 由 于 混合 线性 模型 框架 提供 了 足够 多 的 结构 ,以 致 允许 代 助 于 可 行 GLS 进 
行 估计 ,其 舍 计 值 更 为 有 效 。 


22.8.1 泥 合 线 糙 模型 
混合 线性 模型 (mixed linear model) 设 定 ， 
Vi =z,68 二 Wia; 十 si (22. 52) 


其 中 ,回归 元 丈 包 括 截 上 距 ,wz* 表 示 可 观测 特征 向 量 , a; 表示 均值 为 0 的 随机 向 量 ， 
而 ex* 表示 误差 项 。 此 模型 称 为 混合 模型 ,因为 它 既 有 固定 参数 8, 又 有 均值 的 随机 
参数 或 随机 效应 am, 。 
随机 截 距 模 型 是 yi 二 zB 十 a; 十 ei , 它 是 满足 wzai 一 ax 的 式 (22. 52) 的 特殊 
式 (22. 25) 的 另 一 种 特殊 情况 是 随机 系数 模型 或 随机 参数 模型 。 在 回归 模型 
背景 下 ,我 们 假定 : 
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是 正规 线性 回归 ,只 是 回归 参数 向 量 现 在 依据 : 
CD 一 CT 二 ae 


随 不 同 个 体 而 变化 ,其 中 , wa; 表示 零 均 值 随 机 向 量 。 将 它 代 人 上 式 , 得 出 六 一 
Zz 十 za; 十 ei ,这 是 满足 wi, 二 zi 的 式 (22. 52) 。 

许多 应 用 处 于 随机 截 距 模型 与 随机 系数 之 间 , 其 中 ,w 往往 为 zi 的 子 集 。 尤 
其 是 ,标准 混合 ANOVA 模型 与 随机 ANOVA 模型 也 是 其 特殊 情况 ,其 中 ,向 量 
wz 的 第 & 个 分 量 为 0 或 1, 这 要 依据 各 种 可 能 的 聚集 数据 模型 而 定 。 例 如 ,zz 的 一 
个 分 量 可 能 是 种 族 或 性 别 指示 变量 。 于 是 ,yi 的 条 件 均 值 会 随 着 性 别 或 种 人 
化 。 还 可 以 认为 ,yz 的 条 件 方差 也 随 着 性 别 或 种 族 而 变化 ,这 能 借助 于 包括 wi 而 
获得 。 混 合 模型 是 ANOVA 模型 的 分 支 。 分 层 线性 模型 或 多 水 平 线 件 模 型 (参见 
24. 6. 2 廊 ) 也 能 表述 成 式 (22. 52) 的 特殊 情况 。 


22. 8.2 和 谷 评 


目标 是 估计 固定 回归 参数 8、 关 于 a 与 ;的 分 布 方差 以 及 协 方差 参数 。 此 模 
型 的 早期 研究 之 一 是 由 林 德 利和 史密斯 (Lindely and Smith，1972) 给 出 的 贝 叶 斯 
内 容 。 他 们 的 一 般 性 研究 的 一 个 简单 例子 是 含有 yi 一 NLzipBi,o jj 的 随机 系数 模 
型 ,其 中 ,BB 一 NLY ,Tj」。 例 如, 有关 线性 面板 数据 模型 的 贝 叶 斯 分 析 , 参 见 库 普 
(Koop, 2003)。 

这 里 我 们 遵循 经 典 方法 (classical approach ) , 它 是 基于 哈 维 尔 (Harville， 
1977) 人 研究 工作 而 展开 的 , 哈 维尔 曾 给 出 早期 的 参考 文献 。 混 合 模型 (22. 52) 可 以 
被 划分 成 确定 性 成 分 xiB 与 随机 成 分 wia; 十 es 。 其 随机 假设 包括 回归 元 xx 与 堆 
均值 随机 成 分 a; 及 ei 是 独立 的 假设 。 因 而 ,yi 对 xi 的 混合 OLS 回归 提供 了 一 致 
估计 值 。 我 们 基本 上 处 于 21. 5 节 的 领域 之 中 , 当 对 误差 项 wia i; 十 ei 的 方差 矩阵 
施加 结构 时 ,就 具有 可 行 的 GLS 估计 。 在 本 节 , 我 们 沿 着 两 种 不 同 的 方法 阐述 可 
行 GLS 估计 量 , 以 便 估计 ww; 与 ez 的 方差 及 协 方差 ,并 考察 随机 成 分 a 的 预测 。 

看 以 通 稼 方式 对 给 定 个 体 时 不 同时 间 的 观测 值 加 以 组 合 , 则 式 (21. 52) 变 成 : 

yi 一 Z3 十 (Wiai; 十 si ) (22. 53 ) 


通常 假设 是 ,a 与 ; 对 于 不 同 ; 是 独立 的 , 且 它 们 相互 之 间 是 独立 的 ,满足 we 一 [0， 
二 | 且 ci 一 [0, 工 j 9 因此 误差 项 满足 : 


Wiai 十 6 一 [0,Q 一 W 荆 Wi; 十 五 ] 
于 是 ,可 行 GLS 估计 量 是 : 


N N 
Bras = | DZQNL | DZ Oy, (22. 54) 
i 一 1 t=] 


执行 运算 需要 @; 的 一 致 估计 值 。 较 简单 的 随机 截 距 情况 已 在 21. 7 节 中 阐述 
过 ,在 此 情况 下 ,存在 几 种 不 同方 法 一 致 估计 oi 与 ce 的 方差 成 分 ,只 是 具有 一 些 复 
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杂 情 形 诸 如 伍 倚 以 及 可 能 出 现 负 的 估计 值 。 这 里 ,估计 到 与 五 时 会 引出 类 似 
问题 。 

我 们 在 随机 成 分 以 外 的 正 态 分 布 假设 基础 上 阐述 两 种 佑 计量 。 例 如 ,对 于 更 

y 一 ZG 十 (Wa 十 e) (22. 55 ) 


其 表述 可 借助 于 适当 地 于 放 式 (22. 53) 而 获得 。 假 定 wa ~NW [0,G|, 且 ee~ 
NL0,Rj, 其 中 ,在 当前 应 用 中 ,G 与 R 均 是 瑟 与 到 的 函数 。 关 于 混合 模型 的 可 
行 估 计量 是 : 

Beors = [ZV- 1Z| 'y’V! 了 


其 中 必 关于 V=VTWa 十 e] 二 WGW 十 R 是 一 致 的 。 参 见 斯 玖 米 (Swarny， 
1970) 。 

获得 V 的 一 种 明显 方法 是 极 大 似 然 法 。 基 于 多 变量 正 态 的 对 数 似 然 , 即 剔除 
6 后 等 于 GLS 估计 量 , 是 : 


ln L(G, R) 一 一 斑 In|V 一 ln rV! r 一 |1+In( 圭 )| 


其 中 ,r= 二 y 一 ZL[ZV ZJ TZV 1y, 而 |V| 表示 YY 的 行列 式 。 针 对 G 与 R 中 的 参 
数 求 极 大 值 ,得 出 Y==WGW 十 R。 

方差 成 分 的 ML 估计 弱点 是 ,它们 在 小 样本 中 是 有 偏 的 。 例 如 ,对 于 含有 同方 
差 误差 的 横 截 面 线性 回 妇 来 说 ,MLE 经 王 入 过 本 是 有 偏 的 ,不 过 ,一 种 最 好 的 
方法 是 用 (N 一 K) 去 除 。 对 于 模型 (22. 53) , 自由 度 修正 是 由 下 述 约束 极 大 似 然 估 
计量 提供 的 ,该 估计 量 极 大 化 : 





__1 _Ni-p - 一 人 
In LRCG,R) 一 三 jn|V 7 InrViir 1+Im( 5) 
-ln1Z'V-1Z| 


2 


其 中 ,p 表示 Z 的 秩 。 有 关 ln LRCG,R) 的 动机 ,参见 哈 维 尔 (Harville，1977) 。 

举 一 个 混合 线性 模型 的 实证 例子 , 考 凤 21.3 节 中 的 回归 例子 ,该 回归 既 允 许 
截 距 是 随机 的 ,又 允许 斜率 参数 是 随机 的 。 于 是 ,随机 系数 模型 得 出 lnhrs = 
7. 734 一 0. 021lnwg ,其 斜率 系数 标准 误差 为 0.046( 默 认 ) ,或 者 为 0.020( 面 板 自 助 
法 ) 。 此 斜率 系数 与 由 表 21. 2 给 出 的 截然 不 同 。 


22. 8.3 预测 


除 固 定 参 数 6 与 协 方差 参数 之 外 ,我 们 还 希望 预测 随机 参数 a 。 
给 定 与 G& 的 一 致 估计 值 时 ,关于 6 与 & 的 联合 正规 方程 能 写成 


[Z 了 ZR 'W [人 =[ 2 
WR ZzZ WR WG iJia WR !y 
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若 求解 8, 则 得 出 前 面 已 给 定 的 Bes, 而: 
一 GWV-I(y 一 7Z 8) 


在 对 于 不 同 i 具 有 独立 性 的 情况 下 ,这 会 得 出 & 二 五 WiV7'(y; 一 ZB)。 如 果 方 差 
息 阵 是 已 知 的 ,这 就 是 最 佳 线性 无 偏 预 测量 。 


22.9 应 用 研究 


面板 2SLS 佑 计量 实际 上 能 利用 横 截 面 数据 的 恰好 2SLS 程序 加 以 估计 (参见 
22. 2. 5 方 ), 和 尽管 所 计算 的 标准 误差 要 求 是 面板 稳健 的 。 关 于 最 优 GMM 估计 量 ， 
可 以 利用 统计 软件 包 答 阵 命令 或 诸如 编程 语言 来 执行 运算 。 

一 些 统计 软件 越 来 越 多 地 采用 面板 命令 ,这 些 面 板 命令 会 自动 执行 本 章 所 述 
的 全 计量 ,包括 最 著名 的 阿 雷 拉 诺 一 邦 德 估计 量 。 


22. 10 ”文献 注释 


本 章 溯 盖 了 最 近 几 本 教科 书 都 曾 人 研究 的 面板 数据 方面 活 牙 的 研究 领域 ,尤其 
是 巴尔 搭 吉 (Baltagi，1995，2001) , 莆 政 (CHsiao，1986，2003) , 李 明 室 (M-J，Lee， 
2002) 以 及 阿 雷 拉 诺 (Arellano，2003) 的 书 。 更 高 等 的 一 些 方法 是 由 马 加 什 和 塞 韦 
斯 特 (IMatyas and Sevestre，1995) 与 阿 雷 拉 诺 和 奥 庄 雷 (Arellano and Honore， 
2001) 提 供 。 

22.2 张伯伦 CChamberlain，1982,1984) 强 调 使 用 外 生性 假设 。 他 运用 了 最 
小 距离 估计 。 后 来 文献 使 用 了 GMM 方法 。 李 明 宰 (M-J，Lee，2002) 和 阿 雷 拉 诺 
(Arellano，2003) 特 别 强 调 GMM 估计 。 也 可 参见 阿 和 施 密 特 (Ahn and Schmidt， 
1999) 的 综述 。 

22.4 这 斯 最 和 泰勒 (Hausman and Taylor，1981) 的 模型 是 引 人 注 是 的 。 借 
助 于 对 一 些 回归 元 与 特定 个 体 效 应 不 相关 的 假设 ,使 得 对 时 常 值 回 归 元 的 系数 进 
行 识别 成 为 可 能 。 

22.5 与 由 巴 莱 斯 特 和 纳 络 夫 (Balesta and Nerlove，1966) 开 始 的 文献 相 比 ， 
线性 动态 模型 的 范围 非常 有 限 。 更 完整 的 讨论 是 由 巴尔 塔 吉 (Baltagi，2001, 第 8 
章 ) 、 葡 政 (Hsiao,，2003, 第 4 章 ) 以 及 阿土 拉 庄 (Arellano,，2003, 第 5 一 8 章 ) 给 出 。 
阿 雷 拉 诺 一 邦 德 (Arellano-Bond，1991) 人 和 佑 计量 尤其 流行 ,因为 它 建议 含有 固定 效 
应 的 动态 模型 。 

22.6 差异 中 差分 方法 因为 其 简单 而 极为 流行 。 尽 管 它 运用 重复 模 截 面 数 据 
而 不 是 面板 数据 ,但 面板 数据 解释 有 助 于 做 出 明显 的 基本 假设 。 伯 特 兰 等 人 (Be- 
trand et al. ，2004) 证 明了 利用 22. 2. 3 节 的 方法 在 个 体 水 平 上 对 时 间 序 列 相 关 性 
加 以 校正 的 重要 性 。 

22.8 混合 线性 模型 在 统计 学 文献 中 特别 流行 。 这 种 混合 线性 模型 在 经 济 计 
量 学 文献 中 较 少 使 用 ,其 原因 是 对 时 和 常 值 特定 个 体 固 定 效 应 不 愿意 施加 结构 约束 。 
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22-1 考察 22.2.1 节 的 面板 GMM 估计 量 。 

(a) 证 明 , 给 定式 (22. 3) 后 对 二 次 函数 Qn(B) 求 关于 B 的 极 小 值 ,得 到 给 定 
Qn (BB) 时 的 面板 GMM 估计 量 ,其 中 ,Qn(B) 是 运用 求 和 记号 表示 的 。 

(b) 证明 ,这 个 估计 量 等 价 于 由 式 (22. 4) 和 定义 的 估计 量 。 

(c) 为 了 简单 起 见 , 假 定式 (22. 4) 中 的 矩阵 Z 与 X 均 是 非 随机 的 ,同时 y= 
XB 十 u, 其 中 ,u 具有 均值 0 且 方 差 Q。 求 式 (22. 4) 估 计量 的 有 限 样本 方差 矩阵 ,并 
将 其 与 式 (22. 5) 的 渐 近 结果 进行 比较 。 

(d) 简化 ~ 一 天 情况 下 的 面板 估计 量 。 

22 -2 考察 面板 数据 模型 ?Vi 一 w 十 Ba 十 ro 十 tar 一] 人， 一 1， 
T, 其 中 ,为 了 简单 起 见 , 不 存在 特定 个 体 效 应 。 假 定 纯 量 回归 元 zz* 与 xx 是 相关 
的 ,对 于 所 有 tt 与;s。 对 于 下 述 每 一 种 表述 来 说 ,8 与 7 的 一 致 估计 是 否 是 可 行 的 ? 
如 果 可 行 , 在 22. 2 节 讨 论 的 基础 上 ,给 出 所 有 合适 的 工具 。 假 定 有 三 个 时 期 的 数 
据 可 以 利用 ,因而 了 二 3, 同 时 注意 到 ,变量 不 可 以 用 作 所 有 年 份 的 工具 ,并 且 , 在 不 
同年 份 中 可 利用 不 同 工 具 。 

(a) 回归 元 wz 满足 求 和 假设 E[ 2wwiui ] 二 0。 

(b) 回归 元 wi 满足 同时 期 外 生性 假设 ELvwiui | 二 0, t= 二 1,…,3。 

《c) 回归 元 wi 满足 弱 外 生性 假设 El rwui |=0, st, t=1,.,3, 

(d) 回归 元 wi 满足 强 外 生性 假设 EL wus 二 0, 5,t 二 1,…,3。 

22 -3 重 述 第 三 个 问题 ,存在 三 个 时 期 数据 ,现在 考察 面板 模型 y; 一 a 十 
Br tT Yew 十 zi ;其 中 ,a; 表示 固定 效应 ,而 且 考 察 建立 在 一 阶 差分 模型 Vi Vil 
Bxi 一 Ti 十 YX Ci 一 TD) 十 (at 一 2 一 1 基础 上 的 IV 估计 。 

22-4 考察 由 22.6 六 阐述 的 差异 中 差分 (DID) 佑 计量 。 假 定时 间 趋 势 项 
(6, 一 6.-1) 对 于 已 处 理 组 与 未 处 理 组 是 不 同 的 。 

(a) 基于 重复 横 截 面 数据 的 $ 的 DID 估 计量 将 是 一 致 的 吗 ? 

Cb) 如果 可 以 利用 面板 数据 ,会 有 $ 的 一 致 估计 吗 ? 请 解释 你 的 回答 。 

22-$S 当 工 具 集 合 被 推广 到 包括 Inwg、kids、age、agesg 以 及 disab 的 三 个 注 
后 项 时 ,同时 1982 一 1988 年 的 7 年 数据 可 用 于 估计 式 (22. 22), 利 用 齐 利 亚 克 
(Ziliak，1997) 的 小 时 与 工资 数据 , 尽 可 能 重新 制作 表 22. 2 的 大 部 分 内 容 , 并 进行 
适当 讨论 。 


ZS 
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23.1 5 引 论 


本 章 将 第 21 章 和 第 22 章 的 线性 模型 面板 数据 方法 推广 到 由 第 14 章 至 第 20 
章 所 阐述 的 非 线性 回归 模型 。 我 们 关注 短 面 板 以 及 含有 时 常 值 特定 个 体 效应 的 模 
型 ,而 时 第 值 特定 个 体 效应 可 能 是 固定 的 或 是 随机 的 。 本 章 既 考察 静态 模型 , 又 考 

就 具有 特定 个 体 效应 的 非 线 性 模型 而 言 , 不 存在 任何 一 种 万 能 摘 述 。 倘 若 特 
定 个 体 效 应 是 固定 的 且 面 板 数据 是 短 的 , 则 仅 对 非 线 性 模型 的 一 个 子 集 才 可 能 获 
得 糙 率 参数 的 一 致 估计 。 不 过 , 知 特 定 个 体 将 应 是 纯 随机 的 , 则 对 更 广泛 模型 来 
说 ,都 可 能 获得 一 致 估计 。 

23. 2 市 阐述 对 特殊 模型 来 说 可 能 实施 也 可 能 不 实施 的 一 般 方法 。23. 3 节 给 
出 具有 乘法 特定 个 体 效应 的 非 线 性 模型 的 一 个 应 用 。23. 4 一 23. 7 节 对 一 些 重要 
非 线 性 模型 ,诸如 离散 数据 .选择 模型 .过渡 数 据 以 及 计数 数据 模型 进行 专门 研究 。 
23. 8 节 将 对 半 参 数 估 计 提 供 一 个 综述 。 


23.2 一 般 结果 


本 节 提 供 如 何 将 线性 模型 的 一 些 方法 加 以 推广 的 一 般 方 法 。 首 先 , 以 对 条 件 
均值 模型 与 参数 模型 进行 区 别 的 方式 来 前 述 几 种 模型 ,包括 固定 效应 模型 、 随 机 效 
应 模型 以 及 混合 模型 。 然 后 ,讨论 估计 这 些 模型 的 方法 ,以 及 获得 面板 稳健 的 标准 
误差 。 而 对 特定 非 线性 面板 模型 的 进一步 研究 由 下 面 一 些小 节 给 出 。 


23. 2. 1 适 息 个 体 驶 应 模型 


线性 特定 个 体 效应 模型 (参见 21. 2. 1 节 ) 设 定 如 下 : 因 变 量 y; 依 赖 于 时 第 值 特定 
个 体 效 应 w ,以 及 通常 回归 元 x 与 回归 参数 8。 该 模型 可 写成 yi 二 ai 十 XB 十 wi ， 
其 中 ,wi 表示 误差 项 。 

对 于 非 线 性 模型 ,诸如 logit 与 沾 松 模型 ,缺乏 引入 可 加 误差 wi 的 动机 。 不 过 ， 
一 种 更 自然 的 方法 是 ,直接 对 条 件 密度 或 条 件 均 值 进行 建 模 ,在 线性 情况 下 ,条 件 
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均值 被 写成 ELy; |ai ,x 二 a; 十 XB 。 

参数 模型 

对 许多 非 线性 模型 来 说 ,包括 最 著名 的 二 值 、 多 项 式 以 及 第 14 一 16 章 给 出 的 
删 失 结 果 模 型 ,完全 参数 方法 是 一 种 共同 建 模 方式 。 

标准 横 和 截面 模型 是 单 指标 函数 ,或 具有 附加 标 度 参数 的 单 指标 模型 。 后 面 小 
中 将 阐述 的 参数 特定 个 体 效 应 模型 (parametric individual-specific effects 
models) 是 将 条 件 密度 设 定 成 : 


f(y la Ki) = fy ya; X,Y) (23, 1) 


其 中 ,7 表示 附加 参数 ,比如 方差 参数 。 该 模型 关于 回归 元 x 与 个 体 效 应 a; 是 单 
指标 模型 。 

通常 假设 是 yi |X%i ,a; 对 不 同 i 和 不 同上 都 是 独立 的 。 给 定 i, 该 假设 可 被 放松 
成 在 不 同 : 上 是 相关 的 (参见 23. 2. 6 节 ) 。 

条 件 均值 模型 

一 种 相当 一 般 的 关于 条 件 均 值 的 非 线 性 模型 是 含有 时 常 值 特定 个 体 效 应 的 模 
型 , 即 

El yi asx |—=g(a ,x BO) i=1l, NI 一 1 ,人 (23. 2) 


其 中 ,g(*) 为 已 知 函 数 。 有 三 种 普遍 设 定 ,第 一 种 是 可 加 特定 个 体 效应 模型 
(additive individual-specific effects model) : 


glai, Xi 0)—=a:t g(x , 0) (23. 3) 
第 二 种 是 乘法 特定 个 体 效 应 模型 (multiplicative individual-specific effects model) : 


ga; , Xi 四) 一 aig (Xi 好) (23. 4) 
第 三 种 是 单 指 标 特定 个 体 效 应 模型 (singe-index individual-specific effects model) ; 
gai Xi B=g(la; tx lB) (23.5D) 


在 每 一 种 形式 里 ,函数 g(*) 都 是 设 定 的 。 回 归 元 x 可 能 是 时 变 的 或 时 常 值 的 ,并 
且 可 能 包括 时 间 虚 拟 变 量 。 

当 隐 含 的 假设 具有 线性 回归 时 ,可 加 效应 模型 适合 w% 的 范围 为 无 界 的 情况 。 
乘法 效应 模型 适合 关 为 非 负 无 界 的 情况 ,比如 计数 数据 ,在 此 情况 下 w 0 且 
g8(") 盖 0。 单 指标 模型 是 probit 模型 的 一 个 自然 起 点 ,例如 g(a; 十 xiB) 二 BCa; 十 
xiB), 其 中 ,D(C* ) 表 示 标 准 正 态 cdf。 当 g(*) 是 恒 等 函 数 时 , 单 指标 模型 就 简化 成 
可 加 模型 。 当 g&(") 是 指数 函数 时 , 单 指 标 模型 便 简 化 为 乘法 模型 ,从 而 exp(ai 十 
xi 了) 一 exp(ai)exp(CxiG )。 

矩 条 件 (23. 2) 只 以 当前 时 期 为 条 件 , 生 假定 回归 元 是 同时 期 外 生 的 (contem- 
poraneously exogenous) (参见 22. 2. 4 节 )。 剔 除 特定 个 体 效 应 需要 较 强 的 外 生 假 
这。 藻 : 

E!| yi Jo; Xi ss Xi |—= pa ,Xs ,OB) (23.6) 
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则 回归 元 是 弱 外 生 的 , 知 : 
El ya | aa Xi XiT | g Ca; Xi ,3) (23.7) 


则 回归 元 是 强 外 生 的 或 严格 外 生 的 。 

含有 可 加 效应 的 非 线 性 模型 相对 而 言 增加 了 几 个 新 困难 。 尤 其 是 ,如 果 面 板 
模型 是 y; 二 ai 十 g (xi ,BB) 十 ui ,那么 第 21 章 与 第 22 章 的 方法 ,包括 通过 非 线 性 最 
小 二 乘法 与 工具 变量 而 不 是 线性 最 小 二 乘法 与 工具 变量 进行 估计 , 需 做 某 种 修改 
才能 用 于 估计 。 

本 章 关 注 含 有 非 线 性 特定 个 体 效应 的 模型 , 比如 式 (23. 4) 与 式 (23. 5)。 这 些 
效应 将 被 处 理 成 固定 效应 或 随机 效应 。 


23.2.2 辕 定 效应 模型 


固定 效应 模型 将 特定 个 体 效 应 处 理 成 不 可 观测 随机 变量 ,该 不 可 观测 随机 变 
量 可 能 与 回归 元 xi 相关。 在 短 面板 数据 模型 中 ,一 般 地 讲 , 对 固定 效应 a ,… ,an 
与 模型 其 他 参数 8 ,可 能 还 有 7 进行 联合 估计 ,得 到 所 有 参数 的 非 一 臻 估计。 不 
过 ,在 一 些 特殊 背景 下 ,提出 了 一 系列 剔除 固定 效应 的 方法 ,使 对 模型 其 他 参数 得 
到 一 致 佑 计 成 为 可 能 。 

附带 参数 问题 

内 曼 和 斯 科 特 (Neyman and Scott，1948) 曾 经 考察 , 当 某 些 参 数 对 所 有 观测 值 
来 说 是 共同 的 ,额外 参数 却 有 无 限 多 个 ,其 中 每 一 个 参数 仅仅 依赖 于 有 限 个 观测 值 
情形 的 推断 间 题 。 公 共 参 数 (common parameters) 是 人 们 内 在 关注 的 焦点 ,而 后 一 
种 参数 称 为 非 主 要 参数 5 17(incidental parameters) 。 

这 里 8 与 均 是 公共 参数 ,但 al ,…,an 是 非 主 要 参数 ,倘若 面板 数据 是 短 的 ， 
则 每 个 a; 依 闵 于 固定 的 工 个 观测 值 ,而 当 六 一 ce 时 ,存在 无 限 多 个 w。 由 于 仅 有 
栈 个 观测 值 用 于 估计 每 个 参数 , 当 六 一 co 时 , 非 主 要 参数 被 非 一 致 地 估计 出 来 。 非 
主要 参数 问题 意 指 ,此 种 情况 污染 了 公共 参数 的 估计 。 一 般 地 讲 , 尽 管 公共 参数 是 
有 限 的 , 且 可 利用 NT 一 cc 个 观测 值 加 以 估计 ,但 公共 参数 还 是 被 非 一 致 地 估计 出 。 

对 起 因 于 非 主 要 参数 污染 的 一 种 简单 解释 是 ,假定 yi 一 NWLa ,到 j。 运 用 极 大 
似 然 法 进行 估计 ,得 出 &; 二 3;,1 二 1,…,N, 并 且 二 CNT) 2 一 到 天。 于 
是 , 当 N 一 oc 时 ,在 固定 荆 时 短 面板 背景 下 ,ElL6 j= 二 oo(T 一 1)/T, 故 6 是 of 的 非 


一 致 估计 值 。 当 T=2 时 ,就 宁 今 0. 50? 而 言 ,这 种 非 一 致 性 可 以 非常 大 ， 

、 ”一 般 地 讲 , 若 存在 非 主要 参数 问题 , 则 需要 另 一 种 估计 方法 ,该 方法 首先 剔除 
非 主要 参数 。 对 于 某 些 流行 的 模型 来 说 ,最 著名 的 是 面板 probit 模型 , 非 主要 参数 
问题 没有 解 。 甚 至 就 存在 一 致 估计 的 方法 而 言 , 这 些 方法 倾向 于 使 模型 变 成 特定 
的 ,正如 兰 开 斯 特 (Lancaster，2000) 所 强调 的 。 不 存在 统一 求解 非 主 要 参数 问题 
的 方法 。 


[ 1] 又 称 为 偶发 参数 。 一 - 译 者 注 
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条 件 似 然 

一 个 统计 量 : 称 为 参数 充分 统计 量 , 如 果 给 定时 样本 分 布 不 依赖 909。 对 于 特 
定 个 体 效应 面板 模型 , 若 元 余 参 数 w 存在 一 个 充分 统计 量 , 则 通过 以 该 充分 统计 
量 为 条 件 就 能 剔除 元 余 参 数 a;。 所 得 到 的 条 件 密 度 仅仅 依赖 于 公共 参数 ,从 而 得 
出 一 致 估计 。 

设 yY 王 [ya ，… ,yirj」] 表示 个 体 i 在 所 有 T 开 时 期 的 因 变量 工 X1 维 向 量 , 设 X= 二 
[x ，…… ,Xir]」 表示 相对 应 的 回归 元 TXK 阶 和 矩阵。 对 于 静态 模型 ,w 具有 密度 


T 
fly; | X;,a;, OB,Y) 一 FE fy [xi ,ai, By) (23.8) 
一 】 


在 短 面 板 情 况 下 ,建立 在 该 密度 基础 上 的 极 大 似 然 估计 通常 得 出 8 的 非 一 致 估计 ， 
原因 在 于 出 现 了 非 主 要 参数 。 

假定 a; 存在 一 个 充分 统计 量 (sufficient statistic)s 。 于 是 , 除 通常 以 回归 元 为 
条 件 以 外 ,还 以 充分 统计 量 s; 为 条 件 ,就 得 到 条 件 密度 : 


fly; [Xa BY ,Ss) = fy;|X;, 9,yySi) (23. 9) 


因此 ,a; 被 旭 除 。 例 如 ,对 于 线性 回归 模型 ,在 正 态 条 件 下 ,si 一斑 ( 人 参见 21. 6. 3 
节 )。 从 而 ,条 件 MLE 对 条 件 对 数 似 然 : 


N 
lIn [Liono (BB ,7Y) -一 >》 ln fly; | GysSi) (23. 10) 
;一 1 


求 极 大 值 。 这 里 增加 一 个 定语 “条 件 ” 意 指 以 s; 为 条 件 , 而 不 是 以 X; 为 条 件 。 

安德森 (Andersen，1970) 对 条 件 MLE 进行 了 详细 分 析 。 他 已 经 证 明 , 若 密度 
f(y;|X;,a;, 忆 ) 被 正确 设 定 ,就 条 件 对 数 似 然而 言 ,信息 矩阵 成 立 , 则 条 件 MLE 是 
一 致 的 。 可 是 ,一 般 地 讲 , 由 于 条 件 MLE 不 必 达 到 Cramer-Rao 下 界 , 所 以 出 现 效 
率 损失 。 不 过 ,对 于 正 态 分 布 与 油 松 分 布 来 说 ,几乎 没有 效率 损失 。 

需要 适合 充分 统计 量 的 方法 确实 存在 。 这 种 情况 只 针对 少数 几 个 模型 ,基本 
上 是 线性 指数 族 的 那些 模型 。 安 德 森 关注 没有 回归 元 的 模型 ,并 给 出 了 正 态 、 泊 
松 .二 项 以 及 做 玛 模型 作为 例子 。 一 且 引 进 回 归 元 ,要 找到 适合 的 充分 统计 量 甚 至 
更 加 困难 。 麦 卡拉 和 内 尔 德 (McCullagh and Nelder，1989) 对 此 给 出 一 种 相当 一 
般 的 讨论 ,而 迪 格 尔 等 人 (Diggle et al. ，2002) 将 关注 点 限制 在 特殊 化 的 具有 标准 
连接 阴 数 [il(canonical link function)GLM.，。 

就 可 利用 充分 统计 量 而 言 , 重要 例子 是 , 正 态 性 条 件 下 的 线性 模型 (参见 
21. 6.2 节 ) .二 值 数 据 的 logit 模型 (尽管 不 是 probit 模型 )、 单 参数 伽 玛 (包括 指 
数 ) 、 关 于 计数 数据 的 特定 参数 化 的 泊 松 与 负 二 项 模型 。 

均值 差分 变换 

对 于 含有 可 加 或 乘法 效应 的 某 些 条 件 均 值 模型 来 说 ,个 体 效 应 可 通过 运用 适 
当 差 分 变换 剔除 。 这 样 做 就 会 产生 能 用 于 和 抑 方 法 或 GMM 估计 的 矩 条 件 , 正 如 


[1] 这 里 译 者 将 其 译 为 标准 连接 盟 数 ,此 术语 是 广义 线性 模型 中 特有 的 ,不 要 将 它 与 “copulae” 混 
请 。 一 一 译 者 注 
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23. 2. 6 节 所 述 ，。 

均值 差分 变换 是 21. 2. 2 节 给 出 的 线性 模型 的 组 内 变换 的 一 种 推广 ,那里 通过 
减 去 特定 个 体 均 值 来 剔除 。 它 要 求 强 外 生 回 归 元 ,参见 式 (23. 7)。 

对 于 式 (23. 3) 定 义 的 可 加 效应 模型 ,含有 强 外 生 回 归 元 ,从 而 : 


E[ (Cy,—53)— (g(x 8)—g(08)) |x ,xir |=0 (23. 11) 


其 中 ,EB;( 0) 二 了 > 1g(XiB) ,该 结果 使 用 了 ElLy, ] Ril """ ,XT | a; 十 去 (8), 就 
线性 模型 (23. 11) 而 言 , 可 进一步 简化 成 g(xiB8) 一 g;(8) 二 (x 一 X;) DG。 
对 于 式 (23. 4) 定 义 的 乘法 效应 模型 ,经 过 某 些 代数 运算 ,得 到 : 
guB) .1]- 

Ey, #1(B) Xy;|xXil, ,7 | 0 (23. 12) 
这 里 用 到 了 EL5; x ,… ,XiT 一 gjB8;C(B)。 为 了 简单 起 见 ,我 们 将 此 称 为 均值 差分 
变换 ,尽管 严格 地 讲 , 它 是 一 个 拟 差 分 (quasi-difference) 。 它 也 称 为 (和 条件) 均值 标 
度 变 换 ,因为 等 价 地 有 : 


x ,| 二 
E| yy FBS Xb) | Xi! 9 wx | 0 


一 阶 差 分 变换 

一 阶 差 分 变换 (first-differences transformation) 是 21. 2. 2 节 给 出 的 线性 模型 
的 一 阶 差分 变换 的 推广 ,那里 通过 减 去 清 后 一 期 模型 来 划 除 a;。 我 们 假定 回归 元 
都 是 弱 外 生 的 [参见 式 (23. 6)]。 

对 于 可 加 效应 模型 ,有 : 


E[ Cy — yi 1)— (gxB)—gx, 0) x ,Xi 1 |=0 (23.13) 
这 里 用 到 了 El yi | Xi 一 ai 十 gx 10).。 
对 于 式 (23. 4) 定 义 的 乘法 效应 模型 ,有 : 
E[ > —& X yi, | Xi Kit |=0 (23. 14) 


g(xXi,10) 


其 中 ,我 们 用 到 了 EL 一 [Xi 9""" 9 Ni, 1 ]=aig (%;,,_18) o 为 了 傈 单 起 见 9 我 们 称 为 
一 阶 差 分 变换 ,尽管 严格 地 讲 , 它 是 一 个 拟 差分 (quasi-difference)。 仅 以 直到 时 期 1 
为 条 件 的 一 阶 差分 变换 ,依赖 于 弱 假 设 。 它 使 得 对 22. 5 万 推 广 到 非 线 性 模型 的 动 
态 模型 进行 估计 成 为 可 能 。 对 于 动态 乘法 效应 模型 ,伍德 里 奇 (Wooldridge， 
1997) 与 张伯伦 (Chamberlain，1992) 实 际 上 提出 使 用 式 (23. 14) 的 一 种 变形 , 即 : 
E| SE yy | Xi] si |=0 (23. 15) 

虚拟 变量 模型 估计 

如 果 和 忽略 非 主要 参数 问题 ,人 们 就 能 企图 佑 计 所 有 参数 ,包括 特定 个 体 效 应 。 
引入 NN 个 虚拟 变量 gj 集合 , 当 一) 时 ,dj,i 王 1, 否则 qj 二 0, 然 后 联合 估计 特定 
个 体 效 应 参数 al ,… ,an 以 及 模型 的 其 他 参数 。 


微观 经 济 计量 学 

尽管 由 大 N 导致 了 相当 多 的 参数 ,从 计算 上 看 ,此 估计 量 是 可 行 的 ,但 得 到 的 
A 以 及 估计 值 一 般 可 能 是 非 一 致 的 。 这 里 ,我 们 只 考察 参数 模型 ,可 是 对 条 件 均 
值 模型 来 说 ,类 似 情 况 也 成 立 。 

因而 ,考察 由 式 (23. 1) 和 定义 的 参数 形式 特定 个 体 效应 模型 。 于 是 ,运用 对 整个 
对 数 似 然 画 数 : 


N 


T 
In Lee(B,Y Qa) = 2 Dn fooys dia + xB,7Y) (23. 16) 
t=—1 


求 极 大 值 的 方法 得 出 86、 以 及 a = 二 [oa…an] 的 极 大 似 然 估计 值 ,其 中 ,4d 一 
Lava] 。 关于 6 一 [9 YY 与 a 的 一 阶 条 件 是 : 


[> 


> ,aln fyi ,di ct 十 Kx ,7)735 一 人 


zi 一] 


T 
Daln fyasa; + xB ,yy)/90; = 0, z ,NN 
一 | 


l 


尽管 参数 个 数 N 加 上 6 的 维 数 会 更 大 ,但 仍 能 直接 计算 该 估计 量 。 如 同 格林 
(Greene，2004b) 详 细 讨论 的 , 海 赛 矩阵 的 闭 很 容易 通过 对 6 与 a 进行 分 块 ,并 运 
用 标准 分 块 逆 公 式 得 到 ,对 于 j 关 i, 利 用 31n LCG6,a)/9a9a = 二 0 加 以 简化 , 故 对 应 
于 Ca ,aQ) 的 NXN 块 道 容易 求 出 。 

存在 两 种 特殊 情况 没有 非 主要 参数 问题 。 第 一 种 情况 是 , 若 yi 一 MN [a 十 X18， 
oj], 则 由 21. 6.4 节 知 ,6 的 极 大 似 然 估计 是 组 内 估计 量 ,甚至 对 于 有 限 工 来 说 , 关 
于 6 是 一 致 的 。 这 里 的 非 主 要 参数 问题 起 因 于 a? 的 而 不 是 8 的 估计 。 第 二 种 情 
况 是 ,类 似 地 ,对 于 y; ~ 人 P[exp(a; 十 x4B)], 估 计 6 时 ,不 存在 非 主要 参数 问题 ( 参 
网 23.7.3 节 )。 

不 过 ,一 般 地 讲 ,存在 非 主要 参数 问题 。 关 于 a 的 推导 仅仅 涉及 工 个 观测 值 ， 
而 不 是 所 有 NT 个 观测 值 。 在 短 面 板 数 据 中 ,这 时 常 产生 Bn 与 yu 的 非 一 致 性 。 
在 不 太 短 的 面板 数据 比如 T=10 或 工 =20 的 情况 下 ,此 非 一 致 性 可 能 是 适度 的 ， 
格林 《Greene，2004a) 的 模拟 研究 表明 , 偏 倚 的 特性 及 范围 会 随 着 所 探讨 的 特殊 非 
线性 模型 而 出 现 相当 大 的 变化 。 在 存在 固定 效应 的 条 件 下 ,发 展 稳 健 方法 是 研究 
领域 中 一 个 活跃 专题 ,尽管 短 面板 数据 仍然 有 非 一 致 性 。 


23.2.3 大 机 六 应 模型 


随机 效应 模型 是 特定 个 体 效应 a; 人 处理 成 服从 设 定 分 布 的 随机 变量 ,并 通过 对 
该 分 布 进行 积分 去 掉 a;。 随 机 效应 通常 应 用 于 参数 模型 。 

参数 模型 

假定 第 i 个 观测 值 y; 具有 式 (23. 8) 给 出 的 无 条 件 联合 密度 f(y; |X,,a;,B,7Y)， 
并 且 其 随机 效应 具有 和 密度: 


a~g(ai|n) (23. 17) 
其 中 ,g(a;|7n) 不 依赖 于 可 观测 值 。 于 是 ,第 i 个 观测 值 的 无 条 件 联合 密度 是 . 
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了 
flyi| Xi,B,7Y ,7) = |[ I fc [x sa By) lglailn da: (23.18) 
t=] 


其 中 ,我 们 用 无 条 件 意 指 不 再 以 a; 为 条 件 。B8、Y、n 的 随机 效应 极 大 似 然 估计 是 对 
对 数 似 然 


N T 
ln LRECG ,7) 一 > ml| | [Fw | Xi ,qi B) | ga; da ) (23. 19) 
1 -一 1 ti 一] 


求 极 大 住 。 

在 一 些 情况 下 ,从 根本 上 讲 , 当 ,f(yi lu) 与 g(o) 是 共 斩 对 (参见 表 13. 2) 
时 , 则 积分 可 能 是 解析 表达 式 。 这 样 的 例子 包括 得 到 正 态 结果 的 正 态 一 正 态 线 性 
回归 ,以 及 得 出 负 二 项 式 结 果 的 泊 松 一 - 颁 玛 计数 数据 回归 。 

在 大 多 数 情况 下 ,没有 解析 结果 可 以 利用 ,但 数值 方法 或 基于 模拟 方法 可 能 更 
适合 ,因为 积分 仅仅 是 一 维 的 。 在 不 存在 个 体 效 应 时 ,通常 方法 是 选择 f(y ) 作 为 
被 认为 最 佳 拟 合 数据 的 密度 ,然后 设 g(a;) 是 正 态 密度 。 于 是 ,积分 是 关于 正 态 随 
机 变量 的 一 元 积分 。 对 于 小 工 来 说 ,该 积分 通过 高 斯 一 埃 尔 米 特 求 积 法 得 到 很 好 
近似 , 它 是 借助 于 加 权 和 对 正 态 密度 进行 带 近 的 。 巴 特 勒 和 莫 菲 特 (Butler nad 
Moffitt，1982) 对 随机 效应 probit 模型 给 出 了 详细 阑 述 。 斯 殉 龙 达尔 和 拉 贝 。 哈 
斯 元 特 (Skrondal and Rabe-Hasketh，2004) 则 运用 求 积 法 。 一 种 可 能 的 选择 方式 
是 从 g(a;) 中 重复 采样 以 作为 模拟 极 大 似 然 估计 的 基础 (参见 12. 4. 2 节 )。 

上 述 讨 论 假 定 给 定 ;对 不 同上 具有 独立 性 。 不 过 ,倘若 对 不 同 :来 说 ,和 与 ys 
是 相关 的 , 则 更 有 效 方法 是 ,用 f(y;|X;,a;,B,7Y) 代 替 式 (23. 18) 与 式 (23. 19) 中 的 
IJ,f Cy;,, | x;, ;Qi DY) 

随机 效应 模型 

类 似 于 22. 8 节 的 线性 情况 ,很 明显 ,可 将 随机 效应 方法 推广 到 含有 随机 斜率 
与 随机 截 距 的 随机 系数 模型 上 ， z 

一 个 正常 模型 是 具有 条 件 密度 f(y ,Xi(B 十 Qi) ,7 ) 或 条 件 均值 g (yi， 
xa《[B 十 Qi)) 的 单 指标 模型 ,并 且 关 于 纯 量 a; 的 一 元 积分 将 变 成 关于 向 量 am; 的 多 
元 积分 ,通常 假设 a; 服从 正 态 分 布 。 

相关 随机 效应 模型 

随机 效应 模型 的 一 个 重要 弱点 是 , 它 做 出 如 下 假设 :随机 效应 与 回归 元 是 独立 
的 。 为 了 克服 这 个 局 限 性 , 张 们 伦 (CChamberlain，1980，1982) 提 出 相关 的 随机 效 
应 模型 ,其 有 关上 背景 讨 论 参见 21. 4. 4 节 , 该 模型 设 定 如 下 : 


ai 一 X1;7n 十 … 十 XTi7rT 十 & (23. 20) 


那么 ,上 述 似 然 函数 是 对 B,7 ,Tt 以 及 密度 的 & 参数 求 极 大 值 。 与 线性 模型 不 同 ， 
这 个 模型 会 得 出 不 同 于 利用 芒 德 拉克 (Mundlak，1978) 的 较 简 单 设 定 而 得 到 的 估 
计量 : 


ui 一 XiTr 十 6 (23. 21) 


微观 经 济 计 量 学 

可 将 式 (23. 20) 看 成 分 层 模型 的 一 个 例子 。 更 一 般 的 分 层 模 型 同样 允许 出 现 
随机 斜率 ,并 利用 经 典 方 法 或 贝 叶 斯 方法 加 以 估计 。22. 8 节 已 经 详细 阐述 了 线性 
模型 。 

有 限 混合 模型 

有 限 混 合 模型 (参见 18. 5. 1 节 ) 提 供 了 不 可 观测 特定 个 体 效 应 的 一 种 可 供 选 
择 模 型 。 千 存在 m 种 个 体 类 型 或 潜在 类 别 , 对 于 第 j 个 类 型 4; 一 aj, 则 式 (23. 18) 
变 成 : 


fy; ] X;, /I,~Yy, A) 一 2 [I fy ] Ris 9 Ci ,GT7) | 
该 模型 最 常用 于 面板 持续 期 限 模型 (参见 18. 5. 2 节 )。 


23. 2.4 泥人 台 模 型 


混合 模型 并 没有 对 特定 个 体 效 应 以 显 性 方式 进行 建 模 。 它 是 将 线性 混合 回归 
推广 到 非 线 性 模型 上 ， 

条 件 均值 模型 

对 于 条 件 均 值 模 型 来 说 ,混合 模型 是 : 


El y， [x | = gx; ,3) (23. 22) 


其 中 ,8 为 设 定 图 数 。 

模型 (23. 22) 能 直接 通过 NLS 进行 估计 ,其 推断 建立 在 面板 稳健 标准 误差 的 
基础 上 ,这 样 控制 了 条 件 异 方差 性 与 网 及 之 图 的 条 件 相 关 。 一 种 更 为 有 效 的 估 
计 , 可 通过 对 异 质 性 与 相关 进行 建 模 。 其 详细 内 容 将 由 23. 2. 6 节 给 出 。 

混合 模型 与 随机 效应 模型 

忽略 特定 个 体 随 机 效应 的 代价 是 什么 呢 ? 

当 Elai |xi |] 二 0 时 ,可 加 效应 模型 E[ yi | aj, 二 a 十 g(x ;人 ) 会 得 出 式 
(23. 22)。 当 Ela;|xi 二 1 时 ,乘法 效应 模型 ELy; la jj] 二 a;g (%，B) 闭 含 式 
《23.22) 。 因 此 , 知 歼 应 是 可 加 的 或 乘法 形式 , 且 可 以 使 用 这 些 模型 a; 均值 的 标准 
正规 化 , 则 混合 效应 模型 将 得 到 随机 效应 模型 8 的 一 致 估计 。 

否则 ,混合 模型 将 不 可 能 得 出 与 特定 个 体 随 机 效应 模型 一 样 的 参数 估计 。 例 如 ， 
考察 满足 El y; | ar; ,Xi | 二 中 (a; 十 XB ) 的 probit 随机 变量 模型 ,其 中 9 Ci ~AMI0O ,0 |。 
那么 ,可 以 证 明 ,ELys |xsj 一 (xiB/V1 二 0; ), 这 不 同 于 正常 的 混合 probit 模型 
EL yi |xi ] 二 (xiB)。 与 第 21 章 的 线性 模型 不 同 ,倘若 真实 模型 具有 特定 个 体 随 
机 效应 ,并 忽略 这 个 随机 效应 , 则 会 得 出 6B 的 非 一 致 参数 估计 。 

统计 学 文献 对 于 广义 线性 模型 比如 二 值 数据 与 计数 数据 的 面板 形式 ,广泛 运 
用 混合 模型 方法 。 所 得 到 的 参数 俩 计 称 为 吕 体 平均 ,因为 已 己 际 了 随机 效应 。 这 
种 方法 称 为 边际 分 析 , 这 是 因为 EL yi |x 作为 针对 随机 效应 的 边际 模型 。 

参数 模型 

就 混合 参数 模型 而 言 ,其 起 点 通常 是 : 


f(y [Xi ) = fyi ,Xi ;YY) (23. 23) 
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其 中 ,f(。) 设 定 函 数 。 该 模型 利用 极 大 似 然 法 加 以 估计 ,其 推断 建立 在 控制 条 件 异 
方差 性 与 相关 性 的 面板 稳健 标准 误差 基础 上 。 

一 般 地 讲 ,G 及 y 的 混合 参数 模型 不 可 能 与 源 于 随机 效应 参数 模型 的 那些 值 
相 一 致 。 对 此 推理 类 似 于 条 件 均 值 的 那 种 情况 。 


23.2.5 冉 怎 区 应 与 随机 歼 应 


夺 引 入 特定 个 体 效 应 且 与 回归 元 相关 , 则 随机 效应 与 混合 模型 估计 量 是 非 一 
致 的 这 个 基本 结束 对 非 线 性 模型 来 说 仍然 成 立 。 考 虑 到 稳健 性 , 人 们 更 愿意 运用 
固定 效应 模型 ,尽管 估计 时 会 存在 对 有 效 性 损失 的 权衡 。 诊 斯 曼 检验 能 用 作 检 验 
是 否 需要 固定 效应 模型 , 倘 在 可 能 得 到 固定 效应 模型 的 一 致 佑 计 值 。 

有 关 线 性 模型 的 固定 效应 模型 与 随机 效应 模型 的 其 他 比较 ,需要 做 某 种 修改 
才能 用 于 非 线性 模型 。 

因为 非 主 要 参数 问题 ,所 以 不 是 所 有 有 具有 固定 效应 的 非 线 性 模型 都 允许 得 出 
一 致 参数 估计 值 。 因 而 ,固定 效应 建 模 并 不 总 是 可 行 的 。 

右 非 线性 固定 效应 模型 可 能 得 出 一 致 估计 , 则 与 线性 情况 不 同 , 时 常 值 回归 元 
的 系数 束 是 可 识 剂 的 。 为 了 理解 这 一 点 ,考察 可 加 效应 模型 的 均值 差分 变换 。 对 
于 线性 模型 E[ (y; 一 5;) 一 (x —X;)' 8 [x ;XT | 一 0, 就 时 常 值 回归 元 的 明显 问 
题 而 言 ,考虑 第 j 个 回归 元 。 更 一 般 地 讲 , 由 式 (23. 11) 知 : 

El Cy 53) — (g(xiB)—B (CB)) | xxT] 一 0 
对 非 线 性 的 g(，) 来 说 ,并 不 存在 这 类 简化 ,除非 xi 的 全 部 KK 个 成 分 都 是 时 党 
值 的 。 

在 其 有 非 可 加 效应 的 固定 效应 模型 中 , 当 回 归 元 变动 ,不 可 能 预测 因 变 量 的 变 
化 。 就 一 般 模型 (23. 2) 而 言 ; 边 际 效 应 3E[ yi ] Kir Oi ,BG /9x —9g(X ya ,BG ) /9 x 
依赖 于 a;。 

可 以 测量 两 种 特殊 情况 下 的 边际 效应 。 对 于 可 加 效应 (参见 23. 3 节 ), 其 边际 
效应 是 9g (x%i, ,B)/9xi ,该 值 不 依赖 于 w 。 对 于 乘法 效应 模型 (参见 23. 4 市 ) ,其 边 
际 效 应 是 a:9g (Xi ,BB)/9xs。 于 是 ,对 不 同 回 归 元 变动 时 ,可 能 测量 出 边际 效应 的 
相对 变化 。 尤 其 是 ,假如 El y; | Xi an， 8B 一 aexp(CxzG ) ， 则 | (9 下 | y, |/9 ri; )/ 
(9E[ yi J/97xi1)=B, /Ba. 


23.2.6 估计 与 面板 移 健 统计 推断 


上 述 分 析 着 重 研究 剔除 非 主要 参数 的 问题 。 现 在 ,我 们 阐述 当 去 掉 含 有 特 
定 个 体 效应 模型 的 w 时 模型 的 参数 估计 。 

我 们 假定 短 面板 数据 ,并 对 不 同 i 来 说 观测 值 具有 独立 性 。 因 变量 y; 可 能 是 
条 件 异 方差 的 , 且 对 给 定 ; 的 不 同 : 来 说 是 条 件 相关 的 。 这 种 情况 类 似 于 21. 2. 3 
节 , 只 是 用 非 线性 估计 量 代替 较 简单 的 线性 最 小 二 乘法 估计 量 。 标 准 的 统计 输出 
忽略 了 这 种 复杂 性 ,从 而 导致 推断 无 效 。 下 面 内 容 阐述 参数 估计 方差 矩阵 的 稳健 
面板 估计 表达 式 。 作 为 一 种 可 供 选择 方式 ,能 使 用 面板 自助 法 (参见 11. 6. 2 节 )， 


微观 经 济 计 量 学 


人 


广义 矩 方法 估计 

对 于 建立 在 条 件 均值 基础 上 的 模型 ,面板 广义 矩 方法 是 合适 的 。 其 关键 是 对 
答 条 件 进行 设 定 , 这 里 的 和 矩 条 件 是 广义 矩 方法 估计 的 基础 。 沿 着 22. 2. 1 节 的 线 
索 , 一 个 正常 起 点 是 : 


El Zu 0) |] 一 0， 212 一， 人/ (23. 24) 


其 中 ,到 表示 了 工 Xr 阶 和 矩阵 ,该 矩阵 依赖 于 回归 元 ,mu (90) 表示 TX1 维 残 差 向 量 ,9 
表示 gq X1 维 参数 向量 6。 各 种 不 同 面板 模型 会 导致 对 与 Z; 的 不 同 设 定 。 一 个 
例子 将 在 下 面 给 出 。 对 第 22 章 的 一 个 重要 背离 是 , 残 差 (9) 关 于 6 是 非 线性 的 。 

当 ”一 4 时 ,存在 与 参数 同样 多 的 矩 条 件 用 于 估计 ,我 们 运用 面板 矩 方法 估计 
量 Ou, 它 是 


N 
> Zw.C0 ) =0 (23. 25) 
;二 1 


的 解 。 利 用 6. 10. 3 节 关 于 非 线性 系统 估计 的 结果 ,得 到 该 估计 量 服从 渐 近 正 态 分 
布 ,其 方差 矩阵 可 通过 


N N N 
VOI= [OD Duy DZD (23. 26) 
i 二 ] 1! 二] i 二] 


得 到 一 致 估计 ,其 中 ,D; 一 9w/90 1; 一 w(6 )。 从 而 ,得 到 短 面板 的 稳健 面板 标 
准 误 差 ，。 

当 yr>g 时 ,必须 用 广义 矩 方法 估计 ,我 们 运用 面板 广义 矩 方法 估计 量 Gcwx， 
它 极 小 化 : 


Qv(6) = 0] woz) (23. 27) 


其 中 ,WA 表示 7 Xr 阶 加 权 和 矩阵 。 该 估计 量 的 渐 近 方差 矩阵 能 从 6. 10.4 节 给 出 非 
线性 系统 工具 变量 估计 量 的 结果 直接 获得 。 已 知 矩 条 件 (23. 24) ,最 有 效 估计 量 使 
用 WAN 一 LN” 2 ;天 让 证 Z ] 一 : o 

更 有 效 的 估计 量 可 能 利用 可 供 选 择 的 矩 条 件 。 尤 其 是 ,车 起 点 是 特别 的 条 件 
拖 条 件 , 则 广义 和 拖 方 法 估计 的 最 优 无 条 件 矩 条 件 由 6. 3. 7 节 给 出 。 后 面 将 给 出 的 
广义 估计 方程 估计 量 就 来 自 该 方法 。 埃 弗 里 、 汉 森 和 霍 欧 (Avery，Hansen, and 
Hotz，1983) 以 及 布 赖 通 和 芋 奇 纳 (Breitung and Lechner，1999) 进 行 了 更 一 般 的 
研究 。 

广义 矩 方法 例子 

举 一 个 特定 例子 ,考察 利用 乘法 固定 效应 模型 的 一 阶 差 分 变换 。 其 起 点 是 条 
件 挺 约束 (23. 14)。 这 会 得 到 许多 无 条 件 窍 条 件 , 其 中 一 个 是 : 

Ex (ye — EL XY ) |=0, 上 一 1 N 

假定 有 (TT 十 1) 个 时 期 的 Cy; ,x%i ) 数 据 可 以 利用 ,由 于 进行 一 阶 差分 运算 , 故 损失 了 
最 初时 期 数据 。 对 工 个 时 期 数据 又 放 , 得 出 式 (23. 24), 这 里 ,Z; 二 [x ,… ,Xr j， 


马 9 非 线性 面板 模型 


ui 一 [zi 9 wT |。 其 中 » Ui Yi ([g (xi )/g (Xi18 ) | yi o 从 而 ， Zu 一 
2 Xin ? 因此 , 征 方 法 佑 计量 8 是 : 
~ 二 加 g(xXB) | 
> A yi A Ye .= 0 

的 解 。 很 明显 ,可 以 使 用 另外 的 逢 条件, 诸如 ELx;,_1wi j= 二 0, 进 而 得 到 一 个 过 度 识 
别 模型 ,并 通过 广义 矩 方法 加 以 估计 。 第 22 章 线性 模型 对 此 进行 了 广泛 讨论 。 

广义 估计 方程 估计 

条 件 均值 的 混 人 台 模 型 设 定 ELyi [x 二 g(xi,B) (参见 23. 2.4 节 )。 该 模型 能 
通过 已 阐述 的 广义 失 方 法 进行 估计 。 这 里 我 们 还 要 进一步 研究 并 考察 有 效 广义 矩 


:二 1 了 -一 


”方法 估计 。 


对 所 有 全 个 观测 值 琵 放 ,得 到 条 件 矩 条 件 : 
ELy 一 &0C9)1X |=0 (23. 28 ) 


其 中 ,g:(B)—=| g(x ;OB) ,ROXT 2) ; [而 X; 一 | Xi 9 XT] 于 是 ,用 于 人 和 佑 计 
的 最 优 无 条 件 矩 条 件 是 : 

E| SS (VEy x]) Gy 一 00)) |=0 (23. 29) 
运用 6. 3.7 给 出 的 一 般 绪 有 果 ,得 出 一 个 结果 。 从 而 ,得 到 广义 佑 计 方 程 佑 计量 
[Bere , 它 是 


NN 7 
> Bf Ly, —g(B))=0 (23. 30) 
1 一 了 


的 解 ,其 中 , 互 表示 V[y; |X] 的 实用 方差 矩阵 。C 曙 的 渐 近 方差 矩阵 已 由 式 
(23. 26) 给 出 , 包 王 yy 一 &CD 以 及 Z 一 agf09)7/9B818XE。 此 方差 估计 是 面板 稳健 
的 ,并 对 鳌 的 错误 设 定 也 是 稳健 的 。 

归功 于 荣 和 赛 格 尔 (Liang and Zeger,1986) 的 广义 估计 方程 佑 计量, 在 广义 线 
性 模型 的 面板 形式 统计 学 文献 中 被 广泛 使 用 。 各 种 不 同 的 广义 线性 模型 对 应 于 不 
同 的 条 件 均值 函数 g;(B) 与 实用 方差 矩阵 歹 。 

极 大 似 然 估 计 

对 于 基于 似 然 的 模型 ,其 讨论 起 点 是 所 有 本 个 个 体 的 联合 密度 , 即 f(y; |X;， 
90) 。 对 于 混合 参数 模型 ,8 一 [8 ,7 ] 儿 参见 式 (23. 23)] ,而 对 于 随机 效应 参数 模型 ， 
0 一 LG ,7 ,7 [参见 式 (23. 18)]。 

一 种 标准 方法 是 设 fly, |X;,0) 二 二 f(y lx ,0) ,其 中 , f(y |x ;0) 表 示 第 
(zi, 四 个 观测 值 的 密度 。 给 定 z 对 不 同上 具有 独立 性 的 隐 和 性 假设 通常 是 无 保证 的 ， 
尤其 是 不 包括 随机 效应 的 混合 模型 ,随机 效应 会 允许 出 现 不 同时 间 上 的 某 种 相关 。 
不 过 , 倘 契 f(yi |xi ,0) 被 正确 设 定 , 即 使 FCy;|X 9) 被 错误 设 定 ,也 能 得 到 0 的 一 
致 估计 。 于 是 ,为 了 保证 面板 稳健 标准 误差 ,应 该 将 三 明治 形式 用 作 估 计量 方差 矩 
阵 。 极 大 似 然 估计 是 严格 的 拟 极 大 似 然 估 计 ,5. 7.5 节 对 此 进行 了 详细 讨论 。 更 
一 般 地 讲 , 这 种 方法 是 有 关 聚 集 数据 推断 的 一 个 例子 (参见 24. 5 节 )。 
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利用 允许 对 不 同时 间 出 现 相 关 的 f(y; |X;,0) 的 更 为 丰富 模型 ,获得 更 有 效 信 
计 是 可 能 的 。 可 是 ,关于 y; 的 非 正 态 多 元 分 布 是 一 个 约束 ,或 者 难以 继续 研究 。 
对 于 混合 广义 线性 模型 , 却 要 使 用 广义 估计 方程 估计 量 。 


23. 2.7 动态 模型 


具有 特定 个 体 效 应 的 动态 模型 是 人 们 着 重 关 注 的 内 容 , 因为 这 种 模型 使 得 人 
们 能 区 分 真实 状态 相关 性 与 由 不 可 观测 异 质 性 引起 的 伪 相 关 性 (参见 22. 5. 1 节 )。 

对 于 非 线性 模型 ,如何 包 括 沛 后 因 变 量 作为 回归 元 并 不 总 是 明显 的 ,因为 对 基 
些 数 据 类 型 来 说 ,不 是 总 存在 标准 的 纯 时 间 序 列 模型 。 就 泊 松 模型 而 言 ,23. 7. 4 
让 将 阐述 这 一 点 。 当 做 出 合适 设 定 后 ,标准 固定 效应 估计 量 就 变 成 非 一 致 的 ,为 了 
并 人 初始 条 件 ,需要 随机 效应 佑 计量 ,如 同 线性 面板 模型 那样 。 

混合 模型 

混合 模型 忽略 了 随机 效应 ,并 对 通常 模 截 面 模型 加 以 估计 ,该 模 截 面 模型 的 回 
归 元 现在 包括 涡 后 因 变 量 。 这 再 次 与 23. 2. 4 节 所 讨论 的 内 容 有 关 。 

固定 效应 模型 

就 固定 效应 模型 而 言 ,问题 类 似 于 22. 5 节 所 述 的 那些 问题 。 现 在 回归 元 是 弱 
外 生 的 而 不 是 强 外 生 的 。 通 党 固定 效应 佑 计量 都 是 非 一 致 的 。 

对 于 含有 可 加 效应 或 滋 法 效应 的 模型 , 当 使 用 一 阶 差分 变换 (参见 23. 2. 2 节 ) 
以 及 用 请 后 因 变 量 的 高 较 阶 作为 工具 时 ,可 能 得 出 一 致 估 计 。 对 于 可 加 效应 模型 ， 
这 会 得 到 22. 5. 3 万 给 出 的 阿 雷 拉 诡 一 邦 德 佑 计量 的 非 线 性 形式 。 对 于 乘法 效应 
模型 ,其 一 阶 差分 变换 将 由 23. 7. 4 节 详 述 。 对 于 售 有 固定 效应 的 动态 logit 模型 ， 
参见 23. 4. 3 节 。 

参数 随机 效应 模型 

就 参数 随机 效应 模型 而 言 ,有 关 滞 后 因 变 量 的 初始 条 件 会 发 挥 作 用 ,一 般 地 
讲 ,并 不 存在 令 人 满意 的 处 理 , 因 此 ,在 短 面 板 情况 下 估计 都 是 非 一 致 的 , 当 工 增 
大 时 ,其 非 一 致 性 将 变 小 。 | 

考察 一 种 最 简单 的 情况 , 即 仅 有 一 个 时 期 请 后 项 出 现在 模型 中 ,因而 回归 元 
xi 变 成 回归 元 x 与 yx-!。 随 机 效应 密度 (23. 1) 变 为 f(y | -yyuy6)， 对 于 
1 一 2,……, 了 本。 不 过 ,由 于 yo 是 不 可 观测 的 , 故 并 不 能 包括 关于 yi 的 类 似 模 型 。 一 
种 方法 是 ,将 yi 处 理 成 外 生 的 ,因此 ,我 们 仅 对 了 工 一 1 个 观测 值 yi ,…, yi: 的 条 件 分 
布 进行 建 模 。 一 种 可 供 选 择 的 方法 是 提出 一 个 静态 模型 ,假定 ya 依赖 于 回归 元 
xi 旦 可 能 依赖 于 边际 效应 a;。 从 而 ,y; 的 联合 条 件 密度 是 : 


fy:; | Xi; 9 RT oO; ,0 ,0 ,YY) 
本 
一 |[IT fey [yi Nit 9 Qi ,6) |fi (yi | Xi ,ai O01) 28a; [> ) da; 
{2 


而 不 是 式 (23. 18) ,其 中 ,fi1(yn1xiisai'61) 表 示 第 一 个 观测 值 的 假定 密度 。 
纯 时 间 序 列 分 析 中 ,初始 条 件 当 本 一 oo 时 会 变 得 渐 近 无 关 。 不 过 在 短 面 板 中 ， 
当 工 是 小 的 数值 时 ,初始 条 件 就 极为 重要 ,而 且 活 近 特 性 使 用 了 TT 一 oo， 
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OF 


23.2.8 内 竺 加 好 元 


对 非 线 性 模型 的 内 生变 量 的 处 理 , 类 似 于 第 22 章 阑 述 的 线性 模型 情况 。 

面板 广义 矩 方法 是 一 个 通行 的 框架 。 对 于 适当 定义 残 差 uw (0) 与 工具 Z, 来 
说 ,起 点 是 条 件 矩 约束 ELw(0) |Z; 二 0。 这 就 得 出 作为 广义 矩 方 法 估计 基础 的 无 
条 件 矩 (23. 24) 。 备 选 工 具 可 能 包括 除 当 前 一 个 时 期 以 外 的 其 他 时 期 外 生 回 归 元 ， 
如 同 22. 2 节 与 22. 4 节 对 线性 模型 的 讨论 。 


23. 3 非 线性 面板 例子 :专利 与 研发 


我 们 运用 源 自 堆 尔 、 格 里 利 谢 期 和 彭 斯 曼 (Hall，Griliches，and Hausman， 
1986) 的 1975 一 1979 年 5 年 期 间 346 个 厂商 的 每 一 年 数据 ,对 专利 与 研究 之 间 的 
关系 进行 建 模 。 其 因 变 量 yi 表示 专利 , 即 在 最 终 被 授予 年 份 期 间 申 请 专利 数 。 为 
简单 起 见 ,我 们 仅仅 考虑 一 个 解释 变量 zx; , 即 指定 年 份 的 实际 研发 支出 (以 1972 
年 美元 计算 ) 。 

一 个 明显 起 点 模型 是 ,对 数 一 对 数 模 型 ,满足 ELln yi |xij 二 ai 十 Bln x ,从 而 B68 
等 于 专利 研发 弹性 。 该 模型 并 不 能 用 于 这 里 ,因为 相当 多 的 观测 值 出 现 yi 一 0, 而 
ln 0 则 没有 定义 。 一 种 特定 调整 是 ,在 取 对 数 之 前 将 yi 一 0 重新 记录 成 yi 一 0.5。 

图 23. 1 画 出 运用 全 部 厂商 所 有 年 份 的 数据 得 到 的 调整 后 的 In( 专 利 ) 与 
In(ReD) 图 ,以 及 拟 合 OLS( 估 计 斜 率 系数 为 0.834) 和 非 参 数 回 归 曲 线 。 很 明显 ， 
专利 随 着 R&D 支出 而 增长 。 面 板 数据 分 析 , 尤其 是 固定 效应 模型 ,能 将 这 种 关系 
分 解 为 横 截 面 成 分 与 时 间 序 列 成 分 。 可 以 发 现 ,专利 对 不 同 观 测 值 特别 是 对 不 同 
厂商 来 说 变化 很 大 ,其 均值 为 36. 3, 标 准 差 为 74. 5, 其 变化 范围 就 所 有 年 份 全 部 厂 
商 而 言 为 从 0 到 608。 


混合 (整体 ) 回归 


申请 专利 的 自然 对 数 





研发 支出 的 自然 对 数 
图 23.1 专利 与 研发 支出 :混合 (整体 ) 回 归 。 关 于 346 个 厂商 ,1975 一 1979 年 的 5 年 期 间 每 
年 申请 专利 的 自然 对 数 与 研发 支出 的 自然 对 数 图 形 。 零 申请 专利 记 为 0. 5。 


我 们 估计 一 个 乘法 特定 个 体 效 应 模型 ,其 条 件 均值 为 
E[ y; | zi ,a 一 arexp(8ln zi ) exp(y; 十 Bln za ) (23. 31) 
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其 中 ,7y; 二 In a;。 于 是 ,8B 直接 估计 为 专利 研发 弹性 ,这 是 因为 式 (23. 31) 蕴含 
9 ln ELyi | x j/91n xi 王 B。 与 对 数 一 对 数 模型 不 同 , y; 的 零 值 并 不 会 引起 任何 
问题 。 

更 为 丰富 的 参数 模型 认为 , 因 变 量 是 一 种 计数 形式 。 其 起 点 是 泊 松 模型 

yi | Ta 7 一 [Lexp(7 十 8ln Zir) ,| (23. 32 ) 

该 模型 将 在 23. 7 节 详 述 , 它 与 式 (23. 31) 给 出 的 条 件 均 值 一 样 。 

表 23.1 列 出 这 些 数据 的 一 系列 佑 计量 。 所 有 估计 量 在 下 面 的 假设 条 件 下 者 
是 一 致 的 ,该 假设 是 ,条 件 均值 由 式 (23. 31) 给 出 ,a 随机 效应 与 x, 独立 , 且 具 有 常 
值 均值 。 除 最 后 一 个 估计 量 之 外 ,其 他 所 有 估计 量 在 a; 固定 效应 与 x 相关 的 假设 
条 件 下 均 是 非 一 致 的 。 此 表 提 供 了 三 种 标准 误差 估计 和 值 :程序 默认 估计 值 、 面 板 稳 
健 估计 值 (车 有 的 话 ) 以 及 自助 法 ( 非 精 炼 的 )。 每 列 详细 内 容 如 下 : 


表 23.1 专利 与 研发 支出 : 非 线 性 面板 模型 估计 量 * 


NLS 泊 松 GEE 泊 松 - RE 泊 松 - FE 
7 一 Ina 2. 529 1l.712 2. 068 2. 313 一 
8 0. 509 0. 693 .0.560 0. 349 一 0. 038 
面板 se 《0. 055) (0. 043) 《0. 033 ) (0. 033 ) 《0. 033) 
方 根 se | 0. 054 ] [| 0. 047 [0. 107 | [| 0. T19 | [0. 107 
通常 se {0. 0111: {0. 002)} {0. 004 1) {0. 0331 {0. 033} 
8 求 和 一 0. 486 0. 460 0. 546 0. 313 
N 1 730 1 730 1 730 1 730 1] 620 


a 列 出 了 ln( 专 利 ) 对 ln( 研 发 支出 ) 的 非 线性 面板 (23. 31) 混 合 NLS 混合 泊 松 .混合 GEE 混合 随机 效 

应 (RE) 、 泊 松 固定 效应 估计 值 。 斜 率 系数 的 标准 误差 是 面板 稳健 的 ,由 圆 括号 给 出 ,斜率 系数 的 自助 法 标准 
误差 由 方 括号 给 出 ,而 假设 iid 误差 的 通常 估计 的 标准 误差 则 由 大 括号 给 出 。 倒 数 第 二 行列 出 含有 至 多 in( 研 
发 支出 )5 个 滞后 期 作为 回归 元 的 扩展 模型 中 的 8 系数 之 和 。 

混合 NLS: 第 一 列 NLS 估计 值 是 通过 NLS( 人 参见 5. 8 节 ) 对 满足 w 二 a 的 式 
(23. 31) 佑 计 出 的 。 一 旦 假定 iid 误差 ,默认 标准 误差 为 0.011 ,该 值 远 小 于 正确 面 
板 稳健 标准 误差 估计 值 0.054。 

混合 泊 松 模型 : 第 二 列 油 松 估计 值 是 通过 MLE 对 满足 a; 二 a 的 泊 松 模型 
(23. 32) 舍 计 出 的 ,这 里 假定 对 不 同 : 与 上 具有 独立 性 。 其 估计 弹性 为 0. 693 , 与 之 
相 比 ,NLS 的 估计 弹性 为 0. 509。 默 认 标 准 误差 是 0. 002 ,该 值 利 用 了 泊 松 方差 均 
值 相 等 的 约束 (参见 20. 2. 2 节 )。 利 用 三 明治 方差 矩阵 估计 (参见 20. 2. 2 市) 对 过 
度 分 散 修 正 使 标准 误差 估计 增 大 到 0. 020, 从 而 使 控制 计数 数据 任何 过 度 分 散 显 
得 具有 重要 意义 。 另 外 ,控制 对 于 给 定 i 时 不 同 t 的 相关 ,会 导致 甚至 更 高 的 面板 
稳健 标准 误差 估计 值 0. 043。 

混合 GEE: 混合 GEE 估计 量 是 式 (23. 30) 的 解 ,其 中 ,g(x ,8) 由 满足 a 二 a 
的 式 (23. 32) 给 出 。 这 里 ,对 所 用 的 实用 矩阵 3; 的 特别 设 定 由 式 (23. 55) 后 面 给 
出 。 运 用 后 面 讨 论 的 面板 稳健 估计 ,得 到 估计 弹性 为 0. 560, 其 标准 误差 为 0. 033。 

泊 松 RE: 泊 松 随机 效应 估计 量 , 假 定 a; 二 In y; 服从 偶 玛 分 布 ( 参 见 23. 7. 2 
节 )。 估 计 弹 性 为 0. 349, 其 默认 标准 误差 为 0. 033。 
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泊 松 FE: 泊 松 固定 效应 估计 量 , 假 定 a; 一 in y 是 一 个 固定 效应 ,对 它 的 估计 
像 23. 7. 3 节 一 样 。 估 计 弹 性 为 一 0. 038, 它 是 一 个 负 值 ,其 默认 标准 误差 为 0. 033 。 
对 于 泊 松 固定 效应 模型 ,满足 了 ,y; 的 厂商 被 省 略 掉 , 故 使 得 此 模型 损失 22X5== 
110 个 观测 值 。 

国定 效应 模型 与 随机 效应 模型 的 结果 之 间 存 在 很 大 差异 ,这 支持 了 固定 效应 
估计 。 令 人 惊讶 的 是 , 泊 松 固定 效应 模型 出 现 了 负 的 估计 弹性 ,原因 在 于 该 模型 太 
简单 。 尤 其 是 ,研发 支出 影响 到 后 期 专利 活动 。 当 用 忆 ,8&ln x,，: 代 替 式 (23. 31) 
与 式 (23. 32) 中 的 Bln xy 时 ,得 出 表 23. 1 中 倒数 第 二 行 给 出 的 估计 弹性 立 5 ,8 。 转 
定 效应 估计 值 0. 313 小 于 其 他 模型 估计 值 , 只 是 现在 差异 减 小 了 。 


23.4 二 值 结果 数据 


我 们 考察 yi 只 取 值 0 与 1 的 二 值 结果 。 例 如 ,数据 是 某 个 个 体 在 几 个 时 期 的 
每 一 个 时 期 是 否 被 雇用 。 一 个 重要 结果 是 ,固定 效应 估计 对 logit 模型 是 可 解 的 ， 
却 不 适合 于 probit 模型 。 


23. 4. 1 特定 体 体 效应 的 二 值 模型 


具有 特定 个 体 效 应 的 二 值 结果 模型 的 一 个 正常 推广 是 从 横 截面 数据 到 面板 数 
据 , 该 模型 设 定 如 下 :yi 仅 取 值 0 与 1, 满 足 : 
F(a 十 xX4B)， 一 般 形 式 
Pr[ yi = 1 |x peo- ate tua) 对 于 logit 模型 (23. 33) 
(a; 十 Xi 人 B3)， 对 于 probit 模型 
其 中 F(。) 表 示爱 积分 布 浮 数 ,A(，) 表 示人 逻辑 斯 带 cdf ,满足 和 A(z) 二 ex*/(1l 十 e), 而 
BP(，) 表 示 标 准 正 态 累积 分 布 申 数 。 已 知 式 (23. 33), 并 假定 有 具有 条 件 独立 性 ,第 1 
个 观测 值 yi; (yi ;YiT ) 的 联合 密度 是 ， 


1 
flyi| Kiyo,B) = [| FtxB% (1— FlaxiB)) Ym (23.34) 
{=— | 


对 于 二 值 数 据 , 其 条 件 概 率 也 是 条 件 均 值 ,因此 : 
E[ yi |a; ,xi [= F(a x |ai, Xi) (23. 35) 

这 是 一 个 单 指标 特定 个 体 效 应 模型 [参见 式 (23. 5)] , 它 不 可 以 简化 成 加 法 效应 模 
型 或 乘法 效应 模型 。 加 法 与 乘法 效应 模型 都 不 适合 ,因为 这 两 种 模型 都 没有 将 条 
件 均 值 与 条 件 概 率 限 制 于 0 与 1 之 间 。 

由 于 二 值 数据 必 服 从 贝 努 利 分 布 , 故 二 值 面 板 模型 着 重 于 参数 模型 (23. 34) 。 
条 件 均 值 模型 (23. 35) 却 极 少 运用 ,尽管 当 回 归 元 为 内 生 的 时 候 使 用 模型 (23. 35 ) 
会 很 目 然 。 


23. 4.2 谓 机 效应 二 值 模型 
随机 效应 极 大 似 然 估 计量 假定 ,个 体 效 应 服从 正 态 分 布 ,w 一 WL0,o jj。Q 与 
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cx 的 随机 效应 极 大 似 然 估计 量 是 对 对 数 似 然 函 数 ;11n f(y; | Xi,B,) 求 极 大 
值 ， 其 中 : 


2 
f(y | Xi, B,07) = | Aroy [wyG) exp (5) da (23.36) 


7 
这 里 f(y; |Xi,a;,B) 已 由 式 (23. 34) 给 出 ,对 于 logit 模型 ,下 一 A; 而 对 于 probit 模 
型 ,上 上 一下。 积分 (23. 36) 不 存在 财 形式 解 , 故 一 种 标准 计算 方法 是 对 它 运 用 数值 求 
积 法 。 

右 固 乍 效应 不 存在 , 则 苦 代 随机 效应 模型 的 一 种 方法 是 混合 二 值 模 型 ,该 模型 
直接 设 定 Pr[Ly; 二 1|xi 二 F(xwnB )。 于 是 ,统计 推断 应 建立 在 面板 稳健 标准 误差 
(参见 23. 2. 6 节 ) 的 基础 上 。 利 用 广义 抑 方 法 可 能 获得 更 有 将 的 估计 [参见 埃 弗 里 
等 人 (Arvery et al. ，1983) | ,广义 估计 方程 参见 梁 和 基 格 尔 (Liang and Zeger， 
1986 ) 。 


23.4.3 夯 征 胡 应 logit 


对 于 面板 logit 模型 ,运用 条 件 极 大 似 然 估 计 可 能 获得 固定 效应 估计 ,但 对 于 
其 他 二 值 面板 模型 诸如 面板 probit 却 不 可 以 。 
就 logit 模型 而 言 ,经 过 23. 4.6 万 给 出 的 一 些 代 数 运 算 后 ,得 到 yi 一 ( Yil 9 
yiT) 的 联合 密度 为 : 
fy, lax) = Py ) exp (yuxa )G ) (23 37) 


||,[ 1 二 exp(a;Tx,B)|] 
它 依赖 于 w ,我们 需要 噜 除 a;。 对 于 第 i 个 观测 值 , 工 个 时 期 存在 1 的 结 采 为 
Dyio 定义 集合 B. 一 (di; | 2di 二 ,yi 二 c) 是 修 个 二 值 结果 之 和 ,yi 二 cc 的 0 与 
1 的 所 有 可 能 序列 集合 。 于 是 , 当 我 们 以 ,yi 二 c 为 条 件 ,23. 4. 6 节 将 要 证 明 , 可 
以 九 除 ay, 从而: 


四 exp((2yaxi)G ) 
fy 2 ys CX ) DuacB EXP( (Yd i Xi )B) (24 38) 


该 结果 归功 于 张伯伦 (Chamberlain，1980)。 密 度 (23. 38) 是 条 件 极 大 似 然 估计 的 
基础 。 其 唯一 复杂 的 情况 是 ,存在 许多 集合 B. 以 及 了 集合 之 内 的 序列 ,正如 我 们 
现在 所 要 阐述 的 。 

第 一 ,条 件 >2yzr 二 0 无 意义 ,因为 只 有 所 有 yi 二 0 时 才 会 如 此 ,类 似 地 ,得 到 
,yz 二 本 的 情况 。 这 意味 着 , 当 大 部 分 人 在 所 有 时 期 都 外 Q 展 用 时 ,观测 值 损失 相 
当 大 。 

举 以 工作 为 条 件 的 一 个 例子 ,假定 工 =2 且 2,yi 一 1。 于 是 ,可 能 情形 是 序列 
{0,1}) 或 是 {1,0} ,例如 ,由 式 (23. 38) 中 的 条 件 概率 得 出 : 

PrLya 一 0, yi 一 | ya 十 yz 一 ] | 一 0 
加 exp( (x 一 Xio) BG) 
lexp((xi — Xo) B) 


当 耳 二 3 时 ,我 们 能 以 2,yi 二 1 为 条 件 , 其 可 能 序列 是 40,0,1;、40,1,0}) 以 及 {1,0,0)， 
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或 者 以 2,yi 二 2 为 条 件 , 得 出 可 能 序列 40,1,1})、11,0,1) 以 及 人 1,1,0}。 很 明显 ,对 
大 工 来 说 ,存在 众多 序列 , 而且 条 件 密 度 变 得 复 琵 。 

条 件 密 度 是 一 种 条 件 logit 模型 形式 ,其 中 ,参数 是 不 变 的 ,但 回归 元 对 不 同 选 
项 来 说 却 是 变化 的 。 选 项 数目 对 不 同 个 体 者 来 说 却 是 变化 的 ,就 第 i 个 个 体 而 言 ， 
每 个 选项 是 0 与 1 的 一 个 特定 序列 ,其 序列 之 和 为 ,yx 。 利 用 对 此 问题 的 结构 进 
行 特定 编程 是 最 容易 的 。 甚 至 选项 数目 很 大 时 ,比如 , 当 了 =10 且 >yx 一 5, 就 会 
存在 252 个 选项 。 通 过 忽略 掉 一 些 观测 值 , 诸 如 具有 许多 选项 的 个 体 , 这 是 因为 
>,yi 很 大 ,或 者 通过 减少 时 期 数目 ,得 到 一 致 但 稍 欠 有 效 的 估计 是 可 能 的 。 

运用 最 初 模型 (23. 37), 硅 去 挥 个 体 效 应 w ,会 使 解释 回归 系数 变 得 不 可 能 。 
不 过 ,我 们 要 使 用 条 件 模 型 (23. 38)。 例 如 ,假定 我 们 拥有 单个 回归 元 且 8 二 0. 2。 
于 是 , 当 考 察 两 个 时 期 ,并 且 以 ,yi 二 1 为 条 件 时 ,有 : 

Pr| ya 一 0 ,Yi2 王 1 [yi 十 yi2 一 一 了 区 

由 此 可 得 , x 与 zi 的 一 个 单位 差分 导致 该 序列 的 条 件 概 座 变 为 exp (8)/ 
/ [1 二 exp(B) | ,该 值 可 与 当 Xil Xi2 时 概率 的 一 半 形 成 对 比 。 


23. 4. 4 动态 二 从 模型 


假定 我 们 拥有 一 个 纯 时 间 序 列 的 一 阶 蕊 尔 可 夫 logit 模型 ,该 模型 除 以 下 六 后 
因 变 量 之 外 没有 其 他 回归 元 : 


expai yyi—1) 


Prl ya = les yu Texpa Fyy, ,) (23. 39) 
执行 23. 4. 6 节 给 出 的 菜 些 代数 运算 ,得 出 . 
(ie. T—1 
exp (7Y2,-2 Viayi—1) 
(Yi yiyyiT， YY) 二 寺 一 一 一 一 (23,. 40) 


其 中 , 集合 Ci; 一 | yi ViT， Dd i Dy } 是 0 与 1 序列 的 所 有 可 能 集合 ， 这 里 ,全 
个 二 和 值 结果 之 和 为 2,y; ;其 第 一 个 皆 果 是 Vil ,最 后 的 结果 则 为 ViT 。 

建立 在 式 (23. 40) 基 础 上 的 条 件 ML 估计 会 得 出 y 的 一 致 信 计 。 要 求 时 期 的 最 
小 数 是 4。 例如 ,车 y; 是 序列 (0,1,0,1), 则 CC; 集合 由 序列 (0,1,0,1) 与 (40,0,1,1) 
构成 。 该 方法 归功 于 张伯伦 (Chamberlain，1985), 他 实际 上 考虑 了 二 阶 马 尔 可 夫 
模型 。 裔 、 霍 因 斯 和 希 斯 洛 普 (Chay, Hoynes and Hyslop，2001) 将 此 方法 应 用 于 
加 利 福 尼 亚 福 利 时 期 的 管理 数据 ,可 以 发 现 ,一 旦 控制 不 可 观测 个 体 异 质 性 ,福利 
分 享 仍 有 真实 状态 相依 性 。 

上 述 结 果 与 讨论 用 于 纯 时 间 序 列 模型 。 奥 诸 雷 和 基 里 亚 齐 杜 (Honoré and 
K yriazidou, 2000) 给 出 一 种 允许 除 回 归 元 之 外 没有 滞后 因 变 量 的 方法 。 因 而 , 假 
设 式 (23. 39) 成 为 : 


_ _ expla; + x 二 yyix-1) 
Pr| yi 1 |a;, yi ,Xi | 1 十 exp(w 十 xG 十 yy 1) 


考察 四 个 时 期 ,同时 在 第 1 个 时 期 与 第 4 个 时 期 ,比如 说 必 与 内 ,具有 共同 二 便 疆 


(23. 41) 
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条 的 一 种 序列 。 于 是 ,已 知 该 序列 要 么 为 {d ,0,1,d4 要么 为 {d ,1,0,ad 时 ,该 序 
列 是 (di ,0,1,d4} 的 概率 现在 依赖 于 a;。 可 是 , 当 zs 一 zw 时 ,相关 性 w 便 消 失 了 。 
由 于 仅 有 少数 观测 值 有 zs 二 zi, 特别 是 拥有 连续 数据 时 , 奥 诺 雷 和 基 里 亚 齐 杜 
(Honoré and Kyriazidou,，2000) 提 出 了 含有 依赖 于 (xs 一 zi) 的 核 权 数 的 核 光 滑 方 
法 。 帝 和 和 霍 因 斯 (Chay and Hyslop，2000) 给 出 了 这 种 方法 的 一 个 应 用 ,以 及 关于 
动态 二 值 数据 模型 的 许多 其 他 方法 。 


23. 4.5 多 项 式 模型 


固定 效应 估计 量 能 够 被 推广 到 多 项 式 logit 模型 ,这 是 因为 该 模型 会 得 出 两 两 
比较 选项 的 二 值 logit 模型 (参见 15. 4. 3 节 )。 对 于 静态 模型 ,张伯伦 (Chamber- 
lain，1980) 给 出 一 个 简要 解释 ,而 李 明 宰 (M. -J. Lee，2002) 则 提出 更 详细 说 明 。 
马 尼 亚 元 (Magnac，2000) 运 用 动态 固定 效应 logit 模型 ,该 模型 除 滞 后 因 变 量 以 外 
没有 其 他 回归 元 ,对 法 国 劳动 力 市 场 6 个 不 同 状态 之 间 的 个 体 过 渡 做 出 一 个 相当 
详细 的 实证 应 用 。 奥 诺 雷 和 基 里 亚 齐 杜 CHonore and Kyriazidou，2000) 则 考察 了 
多 项 式 logit 模型 。 

对 于 其 他 多 项 式 模型 ,必须 运用 随机 效应 方法 。 甚 至 在 横 截 面 情 况 下 ,对 诸如 
混合 logit 与 多 项 式 probit 这 些 模 型 进行 估计 很 复杂 。 详 细 内 容 , 人 参见 特 项 轧 
(Trainy,2003 ) 。 


23. 4.6 在 区 应 推导 


为 了 简单 起 见 , 不 用 下 标 i。 对 于 logit 模型 ,由 式 (23. 34) 给 出 的 y= (yi,…， 
T 7 
yl) 一 exp(a tx ) 3 
flylo) a (Te ca ) ( 
__ exp( Zuys (ax 十 天 ) 
下,[ 1 十 exp(e 十 XG) | 


__ exp(a2/y:)exp( (2 yx) 8B) 


[1,[1++exp(aTx,B) | 


(23. 42) 





] i 
1 十 exp(a 十 XG ) ) 


由 此 得 到 式 (23. 37) 。 。 

可 以 证 明 , 数 量 >,y 是 如 下 a 的 充分 统计 量 。 假 定 我 们 拥有 y 的 观测 值 , 使 
得 2,y, 二 c。 定 义 集合 B= 二 {d| 2, 一 c)} 是 下 述 0 与 1 序列 的 所 有 可 能 情况 的 集 
合 , 该 0 与 1 序列 的 工 个 二 值 结果 之 和 为 c, 且 以 ,y= 二 c 为 和 条件。 从 而 : 


: ”PrLy， 2y; 一 c | 
fly 之 /3 = 0) = pi (23. 43) 


Prl y | 
Prl 2,y, 一 C | 
Pr[ y, Dy 一 C | 
2vdcB Pr| qd | 
exp((2%,y,%)B) 
DaeB exp( ( Dd 1X ) [7 ) 
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其 中 ,第 一 个 等 式 运用 了 贝 叶 斯 规则 。 第 二 个 等 式 用 到 如 下 事实 :PrL >y' 一 cj 等 
于 0 与 1 组合 为 c 的 概率 之 和 。 第 三 个 等 式 用 到 前 面 f(y) 的 定义 ,以 及 当 我 们 关 
注 dE B. 时 ,部 分 地 依赖 于 ,yy 二 jd, 而 产生 的 大 量 简化 。 
现在 ,考察 动态 模型 。 用 yy 代替 式 (23. 42) 中 的 xB ,得 到 : 
fy) — Pao )exp( Ps yye1y) 
Il,[1+exp(at yy ) | 

exp (a2712 1 ) exp 212 yy 1Y) 

一 | 1 十 exp(a) ] 2 [1 十 exp (a 十 7) D2 

exp (a271_2y,)exp (2 syy 1Yy,) 

[1+expla) ] “7” T+? | 1 二 exp(a 十 7) rt D2 


其 中 ,第 二 个 等 式 用 到 了 y,_1 为 1 或 为 0 的 事实 ,随后 进行 某 些 代数 运算 ,最 后 等 
式 则 用 到 ;yi 二 yi 一 yr 十 忆 计 sy1。 然 后 ,类 似 于 式 (23. 43) 那 样 ,经 过 一 些 代 
数 运 算 ,除了 2 一》 的 条 件 之 外 ,还 需要 以 分 母 出 现 yi 与 yr 为 条 件 。 等 价 地 讲 ， 
我 们 可 以 把 二 -iiy 与 y! 及 yr 为 条 件 。 从 而 得 出 : 


fly) — exp( >,_， V1 Yi ) 
Duaec exp( 2).， ydi_1d, ) 


其 中 (一 td ad 一 yl GT 一 yT， 2 一 1d 一 2 1 ;是 下 述 0 与 1 序列 的 所 有 可 能 情 
况 集合 ,这 丁 个 0 与 1 序列 的 二 值 结 果 之 和 是 3, y, ,其 第 一 个 结果 是 yi ,而 最 后 一 
个 结果 是 VTo 


23.5 Tobit 模型 与 选择 模型 


当 可 以 利用 面板 数据 而 不 是 单一 模 截面 数据 时 ,考察 删 失 、 截 尾 或 者 选择 
模型 。 

混合 分 析 直 接 反映 出 横 截 面 情况 下 的 分 析 , 对 面板 稳健 标准 误差 的 计算 应 该 
加 以 调整 (参见 23. 2. 8 节 )。 例 如 ,参见 格拉 斯 德尔 (Grasdal,2001), 他 考虑 了 由 
面板 损耗 引起 的 选择 。 

不 过 ,这 里 我 们 关注 含有 特定 个 体 效 应 的 面板 模型 。 知 能 保证 对 纯 随 机 效应 
做 出 强 假设 ,就 能 估计 随机 效应 模型 ,其 唯一 困难 就 是 进行 数值 计算 。 不 过 ,在 短 
面板 的 通常 微观 经 济 计量 学 背景 下 ,固定 效应 模型 不 存在 简单 的 一 致 估计 量 。 对 
于 23. 8 节 给 出 的 Tobit 模型 与 广义 Tobit 模型 中 的 固定 效应 来 说 ,可 能 得 出 更 为 
复杂 的 半 参 数 佑 计量 。 


23. 5. 1 截 删 与 截 尾 模 型 


对 于 横 截 面 数据 , 删 失 23. 5. 1 模型 已 由 16. 3. 1 节 给 出 。 一 种 具有 可 加 特定 
个 体 效应 的 面板 形式 设 定 如 下 ; 


Ya =—a; 二 X48 十 gi (23. 44) 
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其 中 ,ss 一 人 WMLO,o2 |， 当 Yi >0a 或 yi 二 0 时 ， 我 们 观测 到 Yi 一 yi ,而 当 YO 晶 ， 则 
不 可 观测 。 第 i 个 观测 值 的 联合 密度 能 够 被 写成 : 


T 
fy 入; ,a ,Go ) 一 [I ga [1 $i 了 (23. 45) 
t=] E 


其 中 ,$i 二 $Cyi 一 @; 一 XB 1/00) , 思 ; 二 斩 ((a; 十 XB)/oc), 而 $8(*) 与 BP(*) 分 别 表示 
标准 正 态 的 pdf 与 cdf 。 

国定 效应 极 大 似 然 估计 是 求 建立 在 式 (23. 45) 基 础 上 的 对 数 似 然 关 于 6 ,02， 
ai，…aN 的 极 大 值 。 在 短 面板 情况 下 ,所 得 到 的 8 一 致 佑 计量 是 非 一 致 的 ,原因 
在 于 ,存在 非 主 要 参数 问题 ,而 且 没 有 简单 的 差分 方法 或 条 件 方 法 能 够 提供 一 致 估 
计量 。 赫 克 曼 和 老 柯 迪 (Heckman and MaCurdy，1980) 将 固定 效应 MLE 用 于 妇 
女 劳 动 供 给 。 尺 管 认 识 到 估计 量 有 非 一 致 性 ,他 们 仍 讨论 了 当 本 ==8 时 非 一 致 性 
可 能 不 是 太 大 。 格 林 (Greene，2004a) 对 固定 效应 Tobit MLE 做 出 一 个 最 新 的 蒙 
特 卡 罗 研 究 。 

由 于 固定 效应 估计 量 存在 非 一 致 性 ,故人 们 更 广泛 地 运用 随机 效应 估计 。 在 
a; ~ NMLO ,0 假设 下 ,Be 以 及 a: 的 随机 效应 MLE 是 对 对 数 似 然 之 ”ln f ly; 
X; ,3,oe ,0 ) 求 极 大 值 。 


foy, | 和 Ga 00) = | f(y | Xia ,G0 )— 1 (23. 46) 


7 下) w 
其 中 ,f(y;|X;,a;,B,oe) 已 由 式 (23.45) 给 出 。 利 用 高 斯 求 积 法 能 计算 该 一 维 积分 。 

此 方法 能 推广 到 含有 删 失 或 截 尾 的 其 他 模型 上 。 例 如 , 当 10 以 上 计数 仅 被 记 
录 成 10 或 稍 大 一 些 的 数 时 ,就 可 运用 23, 7. 2 节 中 泊 松 随机 效应 模型 的 右 删 失 
形式 。 

完全 参数 方法 有 两 个 弱点 。 第 一 ,如 同 横 截 面 情 况 一 样 , 当 存 在 删 失 或 截 尾 
时 ,依赖 于 分 布 假设 的 程度 会 更 大 。 第 二 ,关于 纯 随 机 效应 的 回归 元 是 独立 的 假设 
可 能 显得 太 强 。 


23. 5. 2 先 树 模型 


由 于 面板 数据 具有 类 似 于 模 截 面 数 据 导 致 选择 模型 的 原因 (参见 16. 5 节 ), 所 
以 面板 数据 同样 会 出 现 选 择 模型 问题 。16. 5. 1 节 的 第 二 类 Tobit 模型 被 推广 到 含 
有 特定 个 体 效 应 4; 与 6; 的 线性 面板 模型 是 : 


Yi Qi 十 Xi 十 Ei (23,. 47 ) 
d, 一 全 十 四 二 vi 


其 中 , 当 dd; 这 0 时, yi 二 加 是 可 观测 的 。 否则 ,yy 是 不 可 观测 的 。 

对 于 随机 效应 系统 表述 来 说 ,假定 四 种 不 可 观测 因素 服从 正 态 分 布 。 豪 斯 曼 
和 怀 斯 (Hausman and Wise,1979) 提 出 一 种 极 大 似 然 估计 ,由 于 a 与 5; 可 能 相关 ， 
并 且 ei 可 能 与 vi 相关 , 故 这 是 二 变量 积分 。 

在 短 面 板 条 件 下 ,固定 效应 佑 计量 是 非 一 致 的 。 不 过 ,注意 到 , 当 d; 一 6; 归 因 
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于 个 体 时 常人 特性 引起 选择 可 能 是 可 观测 的 或 不 可 观测 的 , 则 模型 % 二 a; 十 XB 十 
ei 的 固定 效应 佑 计量 是 一 臻 的。 国定 效应 面板 模型 控制 住 了 样本 选择 ,目的 在 于 
它 依赖 时 常 值 特性 。 

费 尔 册 友和 尼 吉 曼 (Verbeek and Nijman,1992) 对 这 些 模 型 进行 一 致 估计 所 
需要 的 基本 假设 做 出 更 详细 讨论 ,并 提出 有 关 选 择 偏 倚 的 检验 。 伍 德里 奇 (Wool- 


舍 计 的 一 些 应 用 中 可 能 不 是 限制 太 强 的 假设 。 维 拉 (Vella，1998) 提 供 了 一 个 评 
注 , 以 及 其 他 一 些 参 考 文献 。 

样本 选择 方法 被 推广 到 面板 损耗 (参见 21. 8. 5 节 ), 从 而 导致 当 因 变量 观测 值 
以 非 随机 方式 丢失 时 出 现 损 耗 偏 傈 。 于 是 , 当 d; 志 0 时 ,第 i 个 观测 值 的 所 有 数据 
都 不 是 可 观测 到 的 ,所 以 式 (23. 47) 中 的 z 需 要 用 不 同 于 时 期 1 的 一 些 时 期 中 的 观 
测 变 量 来 代 茶 。 一 个 早期 例子 是 由 豪 斯 曼 与 怀 斯 (Hausman and Wise，1979) 给 出 
的 ,而 最 近 应 用 则 由 格拉 斯 德尔 (Grasdal，2001) 提 出 。 巴 尔 塔 基 (Baltagi1，2001) 
与 肃 政 (Hsiao，2003) 给 出 了 更 多 的 参考 文献 。 


23.6 ”过渡 数据 


为 了 具体 起 见 ,考察 有 关 福 利 时 期 的 面板 数据 。 最 大 关注 点 是 测算 福利 时 期 
方面 的 个 体 持 久 性 ,并 确定 个 体 持 久 性 归 因 于 真实 状态 相依 性 的 范围 ,而 不 是 因 福 
利 引起 的 个 体 习 性 差异 。 由 于 个 体 习 性 可 能 部 分 地 依赖 于 不 可 观测 因素 , 故 应 该 
使 用 具有 特定 个 体 效应 的 模型 。 对 于 持续 期 限 数据 , 建 模 方法 异常 丰富 ,原因 在 于 
可 以 利用 的 过 渡 面 板 数据 可 能 有 多 种 类 型 。 此 处 ,我 们 关注 固定 效应 模型 。 

可 以 利用 有 关 某 个 个 体 是 否 处 于 一 个 状态 的 几 个 时 点 上 诸如 福利 情况 的 数 
据 。 那 么 ,人 们 就 能 使 用 二 值 面 板 模 型 (参见 23. 4 节 ), 比 如 动态 固定 效应 logit 
模型 。 

较 丰 富 数 据 提 供 了 几 个 个 体 时 期 的 持续 期 限 方面 的 信息 。 一 个 通常 起 点 是 ， 
面板 比例 风险 模型 : 


A(E;; | XX; ) =—A; (£;; yy )exp(Cxz G )a， (23. 48 ) 


其 中 ,三 表示 第 ; 个 个 体 的 第 7 个 时 期 的 完整 时 期 持续 期 限 ,w 表示 特定 个 体 效应 。 
这 是 一 个 混合 比例 风险 模型 ,第 18 章 曾 经 讨论 过 关于 单 时 期 数据 的 此 类 模型 。 关 
于 仅 有 单 时 期 数据 的 MPH 模型 的 非 参 数 识别 的 条 件 , 包 括 w 作为 回归 元 的 独立 
分 布 的 假设 。 这 就 剔除 了 固定 效应 。 不 过 , 若 有 多 重 时 期 可 利用 , 奥 诺 雷 
(Honore，1992) 已 经 证 明 , 当 x; 对 不 同 7 而 言 都 是 常 值 时 ,a; 可 以 是 固定 效应 (人 参 
见 19. 4.1 布 )。 有 关 模 型 (23. 48) 的 进一步 讨论 ,包括 对 依赖 于 第 一 个 时 期 持续 期 
限 的 第 二 个 时 期 来 说 含有 风险 函数 的 动态 持续 期 限 模型 ,参见 19. 4. 1 节 。 
张伯伦 (Chamberlain，1985) 阐 述 了 各 种 面板 持续 期 限 模型 中 剔除 w 的 几 种 
方法 。 对 于 MPH 模型 ,其 基线 风险 心 (…) 在 不 同时 期 7 都 相同 时 ,第 二 个 时 期 比 
第 一 个 时 期 更 长 的 概率 并 不 依赖 于 w。 条 件 极 大 似 然 法 能 应 用 于 伽 玛 持续 期 限 ， 
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”因为 合 玛 是 LEF 密度 。 对 于 威 布尔 、 伽 玛 以 及 对 数 正 态 模型 ,上 /的 密度 不 依赖 
于 ai。 

关于 最 新 参考 文献 以 及 详细 讨论 ,包括 多 重 时 期 数据 对 删 失 的 敏感 性 ,可 参见 
江 登 保 (Van den Berg，2001) 。 


23.7 计数 数据 


蒙 斯 曼 等 人 (Hausman et al. ，1984) 已 经 阐述 可 估计 的 园 定 效应 模型 与 随机 
效应 模型 ,这 里 的 模型 婚 有 面板 泊 松 模型 ,又 有 面板 负 二 项 模型 。 最 新 的 研究 工作 
强调 来 法 效应 模型 的 固定 效应 ,在 相对 弱 分 布 的 假设 下 ,以 便 得 出 静态 模型 及 动态 
模型 的 估计 。 


23.7.1 每 乍 个 体 区 应 的 计数 模型 


尽管 负 二 项 式 模型 的 面板 形式 已 经 被 简要 地 讨论 ,20. 2 节 详 细 分 析 横 截面 数 
据 的 情况 ,但 我 们 仍 要 关注 沾 松 模型 。 

泊 松 特定 个 体 效 应 模型 就 是 设 定 yi 一 了 PLa;exp(xinB)]。 于 是 ,车 假定 具有 条 
件 独立 性 , 则 第 i 个 观测 值 y; 二 (yi ,… ,yi7) 的 联合 密度 是 ， 


T 
fly;|Xi,ai,B)= [| expL —a:exp x1B) [Laiexp (xi BO) J /ya ! (23. 49) 
:二 1] 


一 种 较 少 参数 的 方法 直接 将 条 件 均值 建 模 成 : 


FE| yw | ar ,Xi |] 一 arexpb(xi GD) (23. 50) 
一 exp(7 十 XrB) 


这 既是 一 个 单 指标 特征 个 体 效 应 模型 ,又 是 一 个 乘法 效应 模型 。 由 于 该 模型 是 一 
个 乘法 效应 模型 , 故 个 体 效 应 w 可 通过 均值 差分 或 一 阶 差分 加 以 剔除 。 注 意 , 泊 
松 面 板 模型 (23. 49) 具 有 条 件 均 值 (23. 50) 。 


23. 7.2 大 机 数 应 革 数 模型 


假定 服从 合 玛 分 布 的 随机 效应 会 得 出 易于 处 理 的 随机 效应 模型 的 边际 密度 。 假 
如 w 服从 9L7,7 分 布 ,其 均值 为 1 ,方差 为 17/7 密度 g(ai|7) 一 7 "oye 9/ EC7)。 
从 而 ,对 于 泊 松 模型 (23. 49) 来 说 , 式 (23. 18) 变 成 ， 

一 A 7 _Y -Ey Dy ty) 
7 Hy |x (ss) (21) PC7) 
(23. 51) 

其 中 , 心 王 expCxG),23.7.5 节 将 给 出 其 推导 。 所 得 到 的 泊 松 随机 效应 估计 量 6 
的 一 阶 条 件 能 表述 成 : 


N TT 
D3 (> 一 和 WL) 0 (23. 52) 
7 一 i 
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其 中 ,A 二 T7112,exp(xi6B)。 

当 以 所 有 时 期 回归 元 为 条 件 的 均值 EL yi |ai, Xn，… ,XiT 二 a;exp《XiB ) 时 , 式 
(23. 52) 左边 项 具有 期 望 值 0。 因 此 ,虽然 做 出 全 部 参数 假设 ,但 在 相对 弱 假 
设 一 一 条 件 均值 是 式 (23. 50) 给 出 的 形式 且 回 妇 元 是 强 外 生 的 条 件 下 , 泊 松 随 
机 效应 估计 量 关 于 8 是 一 致 的 。 对 于 密度 (23. 51]) ,El ys [x; | =A , 而 VLy; xi == 
hu 十 乱 /6, 所 以 NB2 形式 为 过 度 分 散 的 。 其 方差 矩阵 的 三 明治 估计 使 得 对 过 度 分 
散 与 条 件 相关 实施 更 灵活 建 模 成 为 可 行 的 。 尽 管 信 息 和 矩阵 关于 B 与 7 是 分 块 对 角 
的 ,但 7 的 一 阶 条 件 ( 没 有 给 出 ) 则 是 相当 复杂 的 。 

已 知 随 机 效应 ,有 有 几 种 可 供 选 择 的 估计 量 可 以 利用 。 第 一 ,混合 浪 松 估计 量 匀 
略 了 随机 效应 ,并 假定 y; |xi ~ 一 PLexp(xiB)」]。 这 就 得 出 一 阶 条 件 : 





N 1 
> xXrtyr 一 Mr) 一 0 (23. 03) 
[ 


其 中 ,4; 二 exp(%,B)。 若 其 条 件 均 值 为 式 (23. 50) ,满足 ELa; lx, | 三 1, 则 该 估计 量 
是 一 致 的 。 因 而 ,当真 实 模型 是 一 个 县 有 乘法 随机 效应 的 模型 时 , 通 帝 横 截 面 泊 松 
极 大 似 然 估 计量 就 是 一 致 的 。 不 过 ,正如 23. 3 节 例 子 所 阐明 的 ,应 该 使 用 面板 稳 
健 标准 误差 。 从 而 ,由 式 (23. 26) 得 出 : 


VE Bre J]= [OAioxaxs | Dioxaxs[ DAuxaxs | (23.54) 


其 中 ,A; = exp (Xi ) ,ti = yi 一 A ，2;, 表示 2 2 而 ,表示 2 六 12011 
>;_1。 一 种 可 供 选 择 的 建立 在 式 (23. 50) 基 础 上 的 混合 估计 量 ,是 非 线性 最 小 二 乘 
法 (NLS) ,在 这 种 情况 下 , 式 (23. 53) 变 成 D2,xXs Cy 一 Xi) 二 0。 

第 二 ,利用 23. 2. 8 节 的 广义 估计 方程 方法 可 能 获得 更 有 效 的 混合 估计 ,该 节 
介绍 了 条 件 相关 性 。 对 于 g; 二 A 二 exp(x4B) ,一 般 结果 (23. 30) 变 成 ; 


~N 
ZE (y;— NA)=0 (23. 55) 
1 一 ] 


其 中 ,Z 表示 XK 阶 和 矩阵 ,其 第 上 行 观 测 值 为 Msxa ,而 入 表示 TX1 维 向 量 , 其 第 
上 个 元 素 为 Mr 。VLyY | 天 有 几 种 不 同 的 实用 方差 矩阵 五 可 以 运用 。 选 取 一 
Diag[4i j 会 得 到 式 (23. 53) 的 混合 泊 松 估计 方程 。 一 旦 令 Z 一 1 且 Bi 二 Xi 一 
$VAuhis ;对 于 s 关 t 时 ,这 允许 出 现 对 不 同 i 为 等 相关 的 或 者 可 交换 的 相关 性 ,因为 
该 相关 行 是 一 个 常 值 $4, 对 于 s 关 i。 

第 三 ,利用 以 负 二 项 式 而 不 是 泊 松 模型 作为 起 点 的 极 大 似 然 法 ,可 以 获得 更 有 
效 的 混合 人 和 估计。 假定 yi 是 一 个 具有 NB2 方差 消 数 的 iid 负 二 项 式 , 该 NB2 方差 函 
数 的 参数 为 cy 与 $; (参见 20. 4. 1 节 ) ,这 区 含 yi 具有 均值 a; 4i/$i, 其 方差 为 
(giAa/$i) X(t 二 To/$i)。 厂 (1 十 a;/$;) 是 一 个 参数 为 (m, 台 ) 且 服从 贝塔 分 布 的 
随机 变量 , 则 经 过 一 些 大 量 代 数 运 算 后 , 式 (23. 18) 简 化 成 : 


T'(Ai TT yi )! TOm tmp) Tmt oA Tt oy ) 
fy;|X;, ,7) (IL sat FD7) TO)T Om Tm tt oAitt 2 yi) 


(23. 56) 


上 
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其 中 ,Ni 二 exp(xnB)。 这 是 对 B、m 以 及 wp 进行 极 大 似 然 佑 计 的 基础 。 该 模型 依 
赖 的 假设 比 泊 松 随机 效应 模型 所 需 的 假设 更 强 。 

第 四 ,不 必 将 分 析 限 制 在 f(y; |X;,B,w) 的 具有 闭 形式 解 的 参数 模型 上 。 克 雷 
和 革 和 迪 热 特 (Crepon and Dugeut，1997a) 运 用 模拟 极 大 似 然 方法 对 含有 正 态 随机 
效应 的 围栏 与 零 膨 胀 面板 计数 模型 进行 了 估计 。 


23.7.3 固定 戏 应 计 闪 模 型 
泪 松 面板 模型 (23. 50) 的 辐 定 效应 人 计量 能 以 几 种 不 同方 式 推导 出 来 


第 一 种 方式 为 ,利用 泊 松 极 大 似 然 估 计 法 联 立 估计 法 估计 8 与 a1,…,av。 建 
立 在 式 (23. 49) 基 础 上 的 对 数 似 然 是 : 
InL(B,a) = In| | J {exp(— ai) CoA) /ys !) | (23. 57) 


一 人 >》， | 一 wii 十 jn ai 2 yi 十 D> yi ln ati 一 >) ln yi 1 | 


其 中 ,Xi 二 exp (xiB8)。 求 上 式 关 于 a; 的 导数 ,并 令 该 导数 为 0, 得 出 4, 王 3,y,/ 
.Ai 。 然 后 ,将 此 a; 代入 式 (23. 57) ,就 得 到 中 心 似 然 函 数 (concentrated likelihood 
function) 。 当 省 略 不 包含 8 的 一 些 项 , 则 得 出 : 


ln Lon (8) cc 2 > [yi ln A — yaln( 之 0 ) | (23. 58) 


由 此 可 得 ,对 于 泊 松 固定 效应 模型 ,不 存在 非 主 要 参数 问题 。 当 固定 T 且 Noo 
时 ,通过 对 式 (23. 58) 的 jn Loom (B) 求 极 大 值 ,获得 6B 的 一 致 估计 值 。 对 式 (23. 58) 
求 关 于 G 的 导数 ,得 到 : 


DPE 一 [or Wl 3574.]|= 
然后 对 上 式 重 新 写成 : 


A 
Dp A y 1)=0 (23. 59) 
其 中 ,i 二 exp(xiB) ,A 二 2,exp(XiB ); 参 见 布 伦 德尔 、 格 里 非 思 和 温 德 梅 杰 
(Blundell,Griffith and Windmeijer ,1995)。 泪 松 面 板 模 型 (23. 49) 与 21.6 节 的 线 
性 面板 模型 都 是 省 有 的 ,因为 对 6 与 a 的 联 立 估计 在 短 面板 条 件 下 会 得 出 8 的 一 
致 估计 值 , 故 不 存在 非 主 要 参数 问题 。 

第 二 种 方式 为 ,条 件 极 大 似 然 估计 法 通过 以 w 的 充分 统计 量 为 条 件 来 剔除 固 
定 效 应 。 对 于 泪 松 面板 模型 ,充分 统计 量 是 ,yi 。 运 用 23. 7. 5 节 给 出 的 一 些 代 
数 运 算 可 以 证 明 。 这 就 得 出 与 式 (23. 58) 给 出 的 中 心 对 数 似 然 函 数 成 比例 的 条 件 
对 数 似 然 孙 数 。 由 此 可 得 ,固定 效应 泊 松 模型 8 的 条 件 极 大 似 然 估计 量 是 式 
(23. 89) 的 解 。 这 是 由 由 姆 格 伦 (Palmgren,1981) 与 之 斯 曼 等 人 (Hausman et al, ， 
1984) 提 出 的 关于 6 的 泊 松 固定 效应 估计 量 的 最 初 推导 。 

第 三 种 方式 为 ,对 乘法 效应 模型 (23. 50) 运 用 均值 差分 变换 (23. 14) ,得 出 
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El[ y;, 一 (Ai /1 ， ) 本 ， | Xi] 9 ;XT | 一 0, 从 而 : 
E[ x (Cy; — Ai /Ni)5;) |=0 (23. 60) 


利用 相应 的 样本 矩 条 件 , 得 出 作为 式 (23. 59) 解 的 估计 量 8， 

同样 的 估计 量 可 用 三 种 不 同方 式 获 得 。 第 三 种 方式 推导 很 明显 做 出 ,使 泊 松 
固定 效应 估计 量 成 为 一 致 的 基本 假设 :回归 元 是 强 外 生 的 且 式 (23. 50) 被 正确 设 
定 。 推 断 应 建立 在 面板 稳健 标准 误差 的 基础 上 。 尤 其 是 , 当 运 用 通常 默认 极 大 似 
然 或 条 件 极 大 似 然 输出 时 ,由 前 两 种 推导 ,由 于 控制 计数 数据 过 度 分 散失 败 , 所 以 
标准 误差 可 能 被 大 大 低 佑 了。 固定 效应 估计 量 导 致 了 数据 的 某 种 损失 ,因为 满足 
24ya 二 0 的 观测 值 并 没有 贡献 于 式 (23. 59) 中 的 和 。 

对 于 负 二 项 式 模 型 的 特殊 参数 化 ,在 有 固定 效应 条 件 下 ,还 可 能 获得 8 的 一 致 
估计 。 豪 斯 曼 等 人 (Hausman et al. ,1984) 曾 经 假定 ,办 是 iid 的 NB1, 其 参数 为 w 
Xi 与 $i， 这 里 , Ai 二 exp (x ), 故 yi 具有 均值 aiAi/$i， 其 方差 为 (aiAi/ 而) X 
(1 十 a;/$;)。 参 数 a; 与 8; 仅 在 至 多 差 一 个 比值 a;/5; 的 条 件 下 是 可 识别 的 ,而 且 该 
Qi/9i 比值 从 第 i 个 观测 值 的 条 件 联 合 密度 中 消失 ,经 过 一 些 代 数 运 算 后 ,可 以 
证 明 : 

f lyase YT | oY) = (I Fe de ~ SL 

(23. 61) 


整数 Ai 的 这 个 分 布 是 负 二 项 超 几 何 分 布 。6 的 条 件 极 大 似 然 负 二 项 式 固定 效应 估 
计量 是 求 基 于 式 (23. 61) 的 对 数 似 然 函 数 的 极 大 值 。 人 们 更 广泛 地 使 用 泊 松 固定 
效应 模型 ,因为 在 更 弱 分 布 的 假设 下 ,G 估计 量 是 一 致 的 。 


23.7.4 动态 计数 模型 


将 动态 特性 引入 计数 数据 模型 之 中 有 几 种 方法 。 卡 梅 伦 和 特 里 维 迪 (Cameron 
and Trivedi1，1998) 对 纯 时 间 序 列 模型 已 经 给 出 了 一 个 综述 。 为 了 简单 起 见 , 考虑 
包含 一 阶 注 后 因 变 量 。 一 个 明显 模型 是 E[ y,|y,-1,X%] 二 exp(yYy,_1 十 XB), 可 是 由 
于 出 现 y-: 的 医 而 引发 了 迅速 扩大 的 特性 。 不 过 ,一 个 更 稳定 的 模型 可 通过 用 
exp(yljn yi1 十 WB) 来 获得 ,但 当 y,-1 = 一 0 时 ,就 会 遇 到 问题 。 因 此 ,一 个 引 人 注 目 
的 模型 是 线性 反馈 模型 ELy | yi1 ,Xj 二 yy 1 十 exp(xiB)。 泊 松 整 数值 AR(1) 模 
型 具有 这 种 性 质 , 而 在 纯 时 间 序 列 情况 下 ,类 似 于 AR(1) 模 型 ,具有 相关 函数 
CorlLy ,yj 二 [参见 阿 洛 施 和 阿尔 萨 德 (Al-Osh and Alzaid,1987) ] 。 

因而 , 布 伦 德 尔 、 格 里 非 思 和 温 德 梅 杰 (Blundell,， Griffiths, and Windmeijer， 
1995，2002) 考 察 了 满足 


E[ yi [aiy yi Xi |—= yy 1a;exp(xiB) 
的 动态 固定 效应 面板 数据 模型 。 应 用 一 阶 差分 变换 式 (23. 15) ,得 出 条 件 矩 约束 : 


/ 
exp (xX,,,_108) | | 
E| SP (Yi Vi 一 ) 一 《yi 一 | ”一 ) [yi 9 9 Vi 一 2 9 Ml 9"""9 i,1— 1 |=0 


exp (Xn ) 
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如 同 23. 2. 6 节 ,该 式 会 产生 许多 无 条 件 和 矩 条 件 ( 参 见 22. 5. 3 节 对 线性 模型 的 类 似 
讨论 ), 这 就 为 进行 广义 矩 估 计 提 供 了 基础 。 克 雷 革 和 迪 热 特 (CCrepon and 
Dugeut，1997b) , 蒙 塔 尔 沃 (Montalvo，1997), 布 伦 德尔 、 格 里 菲 思 和 范 ， 里 宁 
(Blundell, Griffith,and Van Reenen, 1999) 运 用 类 似 的 拟 差 分 法 ,应 用 于 专利 与 
饶 发 关系 的 研究 。 

伯 肯 和 霍 尔 特 (B6ckenholt，1999) 运 用 更 加 参数 化 的 模型 ,使 用 有 限 混合 分 布 估 
计 了 含有 不 可 观测 异 质 性 的 泊 松 整数 值 AR(1) 模 型 (参见 18. 5 节 )。 


23.7.5 硕 机 效应 与 固定 戏 应 当 松 模型 推 时 


首先 ,考察 含有 随机 效应 服从 伽 玛 分 布 的 一 种 随机 效应 泊 松 模型 。 为 了 简单 
起 见 , 不 用 下 标 ,并 设 4 二 expCx;B)。 对 于 泊 松 模型 (23. 49) 以 及 随机 效应 密度 
g(a 17) 来 说 ,由 一 般 公式 (23. 18) 得 出 : 


fyi YT | XxX, ) 一 | |'II (€@ “(aA DY /yy | ) |g(aly) da 
一 | [I /yi |! | (Eo 。a2o )g (aly) da 
= [Ta?/y 1X], (er2% « aD )g Caly)ad 


对 于 gla) 二 Wa? e 97 了 (7 ,执行 类 似 于 20.4.1 市 的 那些 代数 运算 ,得 到 由 式 
(23. 51) 给 出 的 密度 。 

其 次 ,就 已 知 个 体 而 言 ,为 了 简单 起 见 , 将 个 体 下 标 ; 省略, 对 所 有 时 期 观测 值 
来 说 ,推导 泊 松 固定 效应 模型 的 条 件 密 度 。 一 般 地 讲 , 给 定 >y 时 y1，,… ,yr 的 密 
度 是 : 


fy YT 2Y1) = f(y | 2y1)/ f( 22y,) 
— f(y 7 YT) fy) 
[1, (exp(—p) pr /y!) 
exp(— Pp) CD) (2,y1)! 
exp(— Zp) py /Hl,y,! 
exp(— pr) ,Co sp /Coy )! 
% 
于 
其 中 ,第 二 个 等 式 用 到 了 已 知 yi ,… ,yr 的 知识 ,>y 的 知识 并 不 会 增加 什么 内 容 
的 这 个 事实 ,第 三 个 等 式 是 对 yw iid PP [加 以 专门 研究 ,从 而 之 'y， 服 从 
PL2uj, 而 第 四 个 等 式 与 第 五 个 等 式 则 是 通过 简化 得 出 的 。 其 条 件 密度 2,y, 是 
关于 试验 的 多 项 式 形 式 , 其 中 ,本 个 不 同 结果 中 的 第 i 个 结果 以 概率 yp/ 2 出 现 
在 任何 试验 中 。 设 yi 二 a; exp(xG) ,并 取 对 数 ,得 出 与 式 (23. 58) 给 出 的 中 心 对 数 
似 然 成 比例 的 条 件 似 然 。 
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23. 8 半 参 数 估计 


面板 数据 的 半 参 数 文献 强调 受 限 因 变 量 的 模型 ,至 于 横 截 面 数据 , 当 出 现 截 
尾 . 删 失 或 者 选择 时 ,参数 假设 变 得 尤为 重要 。 关 注 焦 点 是 含有 固定 效应 的 模型 。 
对 此 ,我 们 给 出 一 个 简略 概述 。 

对 于 二 值 数据 , 曼 斯 基 (Manski，1987) 将 其 极 大 得 分 估计 量 从 横 截 面 模型 推 
广 到 具有 式 (23. 33) 给 出 的 固定 效应 的 面板 模型 上 ,现在 函数 下 (*) 不 再 被 设 定 。 
尽管 该 估计 量 是 一 致 的 ,但 它 的 收敛 速度 比 vN 慢 ,并 且 不 服从 渐 近 正 态 分 布 。 

对 于 Tobit 模型 , 奥 诺 雷 (HonoreE，1992) 将 鲍威尔 (Powell，1986a) 的 删 失 
LAD 方法 推广 到 面板 效应 模型 (23. 45) ,其 中 ,误差 项 s, 的 分 布 是 未 设 定 的 。 对 数 
据 要 加 以 调整 ,以便 随后 通过 适当 差分 剔除 固定 效应 。 这 种 估计 量 是 VN 一 致 的 ， 
且 服 从 渐 近 正 态 分 布 。 

对 于 含有 样本 选择 的 面板 数据 , 基 里 亚 齐 杜 (Kyriazidou，1997) 考 察 了 第 二 种 
类 型 Tobit 模型 的 固定 效应 形式 ,其 中 ,误差 en 与 Ui 的 分 布 均 未 设 定 。 她 阐述 了 
赫 克 曼 形式 的 两 步 估 计量 。 曼 斯 基 (Manski，1987) 极 大 得 分 估计 量 的 光滑 形式 可 
别 除 选择 方程 中 的 固定 效应 ,尽管 为 了 剔除 结果 方程 的 固定 效应 ,要 在 第 二 阶段 使 
用 相当 复杂 的 差分 方法 。 该 方法 能 被 推广 到 其 他 广义 Topi 模型 上 , 沙 利 耶 、 梅 伦 
但 格 和 范 泽 斯 特 (CCharlier，Melenberg，and van Soest，2001) 给 出 罗 伊 模型 的 面 
板 形式 或 第 五 种 类 型 Tobit 模型 的 一 种 应 用 。 

持续 期 限 模 型 普遍 都 有 删 失 。23. 6 节 关 注 完 整 时 期 的 面板 模型 。 不 论 是 完 
整 时 期 还 是 不 完整 时 期 就 个 体 而 言 均 可 观测 时 ,由 于 已 知 存在 时 不 变 的 固定 效应 
时 删 失 不 是 独立 的 , 故 偏 似 然 方法 是 不 合适 的 。 埠 罗 威 茨 和 李 (Horowitz and Lee， 
2004) 提 出 含有 不 完整 时 期 的 MPH 模型 (23. 43) 的 一 致 估计 量 ,该 方法 并 不 要 求 


23.9 应 用 研究 


正如 线性 模型 情况 一 样 , 夺 使 用 面板 数据 , 则 至 少 需 要 推断 其 建立 在 面板 稳健 
标准 误差 基础 上 。 对 于 横 截 面 数 据 来 说 ,计算 机 程序 是 不 会 提供 这 些 内 容 的 ,除非 
计算 机 程序 有 聚集 标准 误差 选项 ,在 这 种 情况 下 ,和 集 集 由 个 人 来 加 以 设 定 。 

一 种 更 有 效 的 佑 计 可 利用 并 人 序列 相关 的 模型 来 获得 。 经 济 计 量 学 家 强调 随 
机 效应 。 几 种 软件 利用 高 斯 积分 法 去 掉 该 效应 以 及 在 解析 形式 上 易于 处 理 的 更 特 
殊 随 机 效应 ,计数 数据 模型 对 含有 服从 正 态 分 布 随机 效应 的 模型 进行 拟 合 。 不 过 ， 
统计 学 家 则 强调 广义 线性 模型 的 广义 估计 方程 方法 ,许多 统计 软件 包 与 一 些 经 济 
计量 软件 均 有 这 些 内 容 可 以 利用 。 

吉 随 机 效应 与 回归 元 相关 , 则 上 述 这 些 方 法 就 得 出 非 一 致 售 计 。 因 此 ,经 济 计 
量 学 家 着 重 固 定 效应 方法 。 由 于 有 非 主 要 参数 问题 ,所 以 只 对 非 线性 模型 的 一 个 
子 集 在 短 面 板 情况 下 的 固定 效应 方法 才能 得 到 一 致 信 计 。 经 济 计量 软件 包 均 有 这 
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些 模 型 的 条 件 极 大 似 然 估 计 , 固 定 效 应 logit 与 固定 效应 计数 模型 可 以 利用 ,倘若 
不 能 实行 固定 效应 模型 , 则 要 使 用 比 最 简单 的 iid 随机 效应 模型 更 为 丰富 的 随机 效 
应 模型 。 

一 些 动 态 面板 模型 也 可 以 被 估计 出 来 。 这 些 动态 面板 模型 使 得 区 分 由 不 可 观 
测 异 质 性 引起 的 持久 性 与 由 真实 状态 相依 性 引起 的 持久 性 成 为 可 能 。 具 体 执 行 
时 ,要 求 编辑 各 自 的 计算 程序 。 


23. 10 ”文献 注释 


本 章 给 出 一 个 略 过 许多 细节 的 大 量 且 有 观点 分 歧 的 文献 综述 。 面 板 数据 方面 
的 专著 包括 阿 雷 拉 诺 (Arellano，2004)、 巴 尔 塔 基 (Baltagi1，2001), 萧 政 (Hsiao， 
2003) 以 及 李 明 等 (M. -J， Lee，2002) ,这些 文献 都 对 二 值 数据 、 删 失 模 型 以 及 选择 
模型 的 面板 模型 进行 大 量 研究 。 卡 梅 伦 和 特 里 维 迪 (Cameron and Trivedi，1998 ) 
与 李 上 明和 宇 (M. -J. Lee，2002) 的 著作 均 论 述 了 计数 数据 的 面板 模型 。 伍 德里 奇 
《Wooldridge，2002) 和 著作 阑 述 二 值 数据 . 删 失 数据 以 及 计数 数据 方面 的 面板 方法 。 
le 性 模型 的 统计 文献 则 巾 法 尔 迈 尔 和 图 茨 (Fahrmeier and Tutz，1994) 、 

格 尔 等 人 (Diggl et al. ，1994，2002) 加 以 概述 。 马 加 什 和 塞 韦 斯 特 (Matyas and 
Se 1995) 书 中 的 各 篇 论文 考察 非 线性 面板 模型 。 李 明 宁 (M. -J. Lee，2002) 
则 着 重 讨 论 广义 托 方 法 估计 。 阿 雷 拉 诺 和 奥 诺 雷 (Arellano and Honore，2001) 强 
再 了 非 线 性 面板 模型 的 半 参 数 方 法 。 库 普 (Koop，2003) 的 著作 论述 了 面板 数据 的 
员 叶 期 估计 。 

23.2 对 非 主 要 参数 问题 的 一 般 性 讨论 ,参见 兰 开 斯 特 (Lancaster，2002 ) 。 
关于 条 件 极 大 似 然 法 的 重要 考察 文献 是 安德森 (Andersen，1970) , 而 关于 差分 法 
的 重要 参考 文献 是 张伯伦 (Chamberlain，1992) 与 伍德 里 奇 (Wooldridge，1997a) 。 
对 于 随机 效应 模型 ,巴特 勒 和 莫非 特 (Butler and Moffitt，1982) 详 细 曾 述 了 运用 高 
斯 求 积 法 剔除 服从 正 态 分 布 的 随机 效应 ,不 过 ,统计 学 参考 文献 却 关注 染 和 塞 格 尔 
(Liang and Zeger，1986) 的 广义 估计 方程 潜 。 

23.4 对 于 固定 效应 logit 模型 ,有关 静 态 模 型 的 重要 参考 文献 是 张伯伦 
(Chamberlain，1980) ,关于 纯 时 间 序 列 的 动态 模型 的 重要 参考 文献 则 是 张伯伦 
(Chamberlain，1985) ,而 含有 额外 回归 元 的 动态 模型 方面 的 参考 文献 是 奥 诺 雷 和 
基 里 亚 齐 杜 CFHonore and Kyriazidou，2000) 。 也 可 参见 蒂 政 (Hsiao，1995) 。 

23.5 面板 数据 选择 方面 的 内 容 , 参 见 由 维 拉 (Vella，1998) 给 出 的 一 个 综述 ， 
以 及 巴尔 塔 基 (CBaltagi，2001) 与 伍德 里 奇 (Wooldridge，2002) 的 著作 。 

23.6 ”张伯伦 (Chamberlain, 1985) 论 述 了 各 种 持续 期 限 模 型 噜 除 固定 效应 的 
几 种 方法 。 范 登 保 (Van den Berg，2001, 第 6 节 ) 给 出 一 个 优秀 的 讨论 ,以 及 许多 
参考 文献 。 利 用 个 体 多 重 时 期 数据 的 事件 历史 分 析 ; 比 大 部 分 面板 分 析 都 更 为 复 
杂 ,因为 事件 历史 分 析 所 用 模型 均 是 具有 内 生动 态 特性 。 

23.7 面板 计数 数据 模型 的 经 典 参考 文献 是 莹 斯 曼 等 人 (Hausman et al. ， 
1984) 的 论文 。 对 于 动态 模型 的 参考 文献 ,参见 布 伦 德 尔 等 人 (Blundell et al.， 
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2002 ) 的 论文 。 
23.8 面板 数据 半 参 数 方 法 的 综述 ,参见 阿 雷 拉 诺 和 奥 诺 雷 (Arellano and 
Honore，2001) ,也 可 参见 李 明 等 (L. -F. Lee，2002)。 


习题 


23-1 考察 非 线性 面板 数据 模型 yi 二 a 十 exp(xiB) 十 wi ;其 中 ,BB 表示 待 估 
参数 ,a; 表示 特定 个 体 效应 ,i 二 1,…, NN,wi, 是 服从 iid L0, 吧 的 误差 ,并 且 面 板 数据 
是 短 的 。 

(a) 假定 所 有 a; 二 0, 能 一 致 估计 出 8 吗 ? 大 能 ,请 给 出 该 公式 或 一 致 佑 计量 
的 目标 函数 。 若 不 能 ,请 给 出 一 个 简略 解释 ,说 明 6 为 什么 不 能 被 一 致 估计 出 来 。 

(b) 假定 特定 个 体 效应 a; 都 是 随机 的 , 且 是 iid 10, 叶 独立 服从 回归 元 的 。 能 
一 致 估计 出 8 吗 ? 车 能 ,请 写 出 该 公式 一 致 估计 量 的 目标 水 数 。 厂 不 能 ,请 给 出 一 
个 简略 解释 ,说 明 6 为 什么 不 能 被 一 致 估计 出 来 。 

(c) 假定 特定 个 体 效应 w 都 是 随机 的 ,但 与 回归 元 是 相关 的 。 能 一 致 估计 出 6 

吗 ? 车 能 ,请 写 出 该 公式 或 一 致 估计 量 的 目标 消 数 , 知 不 能 ,请 给 出 一 个 简略 解 
释 , 说 明 6 为 什么 不 能 被 一 致 估计 出 来 。 

23-2 [改编 自 张 伯 伦 CChamberlain，1980) 。] 证 明 , 就 简单 T 一 2 模型 中 28 
的 plim 而 言 , 二 值 logit 面板 模型 的 极 大 似 然 估 计 是 非 一 致 的 。 

23-3 利用 与 23. 3 节 相 同 的 关于 专利 研发 数据 的 模型 ,只 是 因 变 量 与 模型 
要 随 着 下 述 内 容 而 变动 。 对 于 每 一 种 情况 ,估计 随机 效应 模型 。 假 如 从 理论 上 看 
可 行 , 再 估计 固定 效应 模型 。 

(a) 使 用 厂商 是 否 有 专利 的 logit 模型 。 

(b) 去 掉 厂商 零 专利 数 的 观测 值 ,使 用 对 数 ( 专 利 ) 数 目的 截 尾 Tobit 模型 。 

(c) 对 专利 数 使 用 泊 松 模型 。 





在 经 验 研究 中 ,数据 往往 不 止 出 现 一 种 情况 ， 而 是 出 现 多 种 需要 同时 研 
究 的 复杂 情况 。 这 类 复杂 问题 例子 ， 包括 违背 简单 随机 抽样 、 观测 值 聚集 
《clustering， 又 称 聚 集 、 集群 )、 测量 误差 以 及 缺失 数据 。 当 它 们 单独 出 现 或 
同时 出 现时 ,在 第 四 部 分 与 第 五 部 分 发 展 起 来 的 任何 模型 背景 下 ， 关注 参数 ' 
的 识别 受到 损害 。 第 六 部 分 包含 三 章 内 容 一 一 第 24 章 、 第 26 章 以 及 第 27 
章 ， 分 析 了 此 类 复杂 问题 的 后 果 ， 然后 阐述 控制 这 些 复杂 情况 的 方法 。 运用 
源 自 本 书 前 面部 分 的 例子 并 明 方 法 。 这 种 特性 给 出 第 六 部 分 与 本 书 其 余部 
分 之 间 的 衔接 要 点 。 

”第 24 章 讨论 源 自 复杂 调查 数据 的 几 种 特征 、 最 著名 的 分 层 抽样 以 及 聚 
_ 集 ， 这 也 是 对 第 3 章 、 第 5 章 以 及 第 16 章 所 涵盖 的 各 种 专题 进行 一 个 补充 。 
第 26 章 讨 论 第 4 章 、 第 14 章 以 及 第 20 章 曾经 研究 过 的 模型 测量 误差 。 第 
27 章 是 关于 缺失 数据 与 多 重 估算 的 独立 一 章 ,但 本 章 利用 EM 算法 及 吉 布 
斯 抽样 器 ， 并 给 出 分 别 与 第 10 章 及 第 13 章 的 联系 特征 。 : 

: 第 25 章 阐述 处 理 评估 。 评估 一 个 宽泛 术语 ， 这 里 评估 意 指 一 个 变量 诸 
如 受 教育 对 某 些 结果 变量 诸如 工资 的 影响 处 理 变量 可 能 是 外 生 指 派 的 ， 
也 可 能 是 内 生 选 取 的 。 处 理 评估 专题 包括 处 理 对 结果 影响 的 识别 性 ， 因为 
处 理 对 结果 影响 或 者 通过 边际 效应 进行 测算 ， 或 者 通过 边际 效应 的 某 些 函 
数 进行 测算 。 这 里 运用 一 系列 方法 ,包括 工具 变量 回归 与 倾向 得 分 匹配 。 
处 理 评 作 问题 ,可 在 第 四 部 分 与 第 五 部 分 考察 的 任何 模型 背景 下 产生 。 本 
_ 章 强调 线性 回归 模型 ， 故 可 尽早 阅读 学 习 。 不 过 ,本 章 假定 读者 已 熟悉 本 书 
涵盖 的 许多 其 他 专题 ， 包括 工具 变量 与 选择 模型 ， 因此 ， 我 们 将 日 益 重要 的 
该 专题 安排 在 本 书 最 后 部 分 。 
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24.1 5 引 论 


通常 ,微观 经 济 计量 学 研究 通常 是 借助 于 人 们 对 关注 总 体 的 某 个 调查 样本 所 
搜集 的 数据 来 实施 的 。 对 调查 数据 做 出 的 一 个 最 简单 统计 假设 是 简单 随机 抽样 
(simple random sampling, 记 为 SRS) ,在 该 假设 下 ,总体 中 的 每 个 元 素 具 有 均等 概 
率 进入 样本 中 。 于 是 ,有 理由 认为 ,统计 推断 建立 在 数据 Cy; ,x;) 对 不 同 :来 说 是 独 
立 的 且 服 从 同 分 布 的 假设 基础 上 。 这 个 假设 支持 了 本 书 阐 述 的 估计 量 小 样本 性 质 
与 渐 近 性 质 ,一 个 显著 例外 则 是 第 16 章 的 样本 选择 模型 。 

不 过 ,在 实际 应 用 中 ,简单 随机 抽样 对 调查 数据 来 说 几乎 永远 不 是 一 个 正确 的 
假设 。 然 而 ,有 一 些 可 供 选 择 的 抽样 方案 ,针对 人 们 特别 关注 总 体 的 子 组 ,以 此 减 
少 调查 成 本 并 增加 估计 精度 。 

例如 ,住户 调查 可 以 首先 将 总 体 在 地 理 上 划分 成 大 王子 组 ,诸如 乡村 或 郊区 ， 
然后 对 各 个 不 同 子 组 执行 不 同 抽样 率 的 调查 。 访 谈 可 以 对 那些 聚集 在 小 地 理 区 域 
比如 城市 街区 住户 进行 。 很 明显 ,数据 (yi,x;) 不 再 服从 iid 的 。 第 一 , (yi ,Xi) 的 分 
布 会 随 子 组 不 同 而 变化 , 故 同 分 布 假设 可 能 不 适宜 。 第 二 ,就 位 于 同一 群体 "1 
(cluster) 的 住户 而 言 ， 数据 可 能 是 相关 的 ， 所 以 该 群体 中 (yi, Xi ) 是 独立 的 假设 
失效 。 

因此 ,为 了 获得 估计 量 的 分 布 ,就 必须 对 所 用 的 通常 方法 加 以 修改 ,而 且 佑 计 
量 的 性 质 可 能 偏离 在 简单 随机 抽样 下 得 到 的 结果 。 对 此 类 内 容 的 讨论 构成 本 章 
主题 。 

关于 回归 建 模 的 一 些 结果 如 下 :第 一 ,车 分 析 目 标 是 对 总 体 特 性 进行 预测 , 则 
针对 不 同 抽 样 率 必须 加 以 调整 ,从 而 得 到 加 权 估 计量 (weighted estimators) 。 第 二 ， 
若 关 注 内 容 在 于 y 对 x 回归 ,假如 给 定 x 时 y 的 条 件 模 型 得 以 正确 设 定 ,同时 分 层 
不 是 针对 因 变 量 的 ,那么 就 没有 必要 实施 这 类 加 权 。 第 三 , 倘 奇 样本 借助 于 因 变 量 
的 值 部 分 被 确定 ,比如 当 收 入 是 因 变 量 时 , 低 收 入 人 员 的 过 度 样本 必须 进行 加 权 信 


[1] 这 里 翻译 成 群体 或 群 , 意 指 地 理 区 域 位 于 同一 个 划分 组 的 众多 单元 。 这 样 ,很 容易 与 “聚集 或 聚 
集 ”(clustering, 该 词 含有 动词 之 意 ) 区 分 开 来 。 译 者 注 。 





微观 经 济 计量 学 
计 。 此 时 ,有 许多 估计 方法 都 是 可 行 的 ,包括 第 16 章 在 样本 选择 偏 傅 背景 下 阐述 
的 某 些 方法 。 第 四 ,集群 至 少 会 导致 标准 误差 估计 相当 程度 地 低估 真实 标准 误差 ， 
而 县 其 至 导致 非 一 致 参数 估计 ,除非 利用 类 似 于 第 21 章 面 板 数据 分 析 所 阐述 的 那 
些 方法 对 集群 加 以 调整 。 

利用 调查 数据 的 大 多 数 微 观 经 济 计量 学 应 用 都 会 涉及 一 项 最 重要 的 内 容 , 即 
需要 对 聚集 加 以 控制 。 观 测 值 出 现 聚 集 , 既 时 常 出 现在 横 截 面 数据 中 ,又 常常 出 现 
在 面板 数据 中 , 其 原因 有 下 述 三 种 情况 :(1) 抽样 设计 ;(2) 社会 实验 的 设计 ;(3) 
观测 方法 的 性 质 。 情 况 (1) 中 的 一 个 例子 是 复杂 大 规模 住户 调查 (compiex iarge- 
scale househoid survey) , 为 了 减少 调查 成 本 ,对 住户 某 些 空间 聚集 进行 抽样 。 情 况 
(2) 中 的 一 个 例子 是 随机 化 社会 实验 ,将 某 种 共同 处 理 指定 给 位 于 特殊 位 置 比如 工 
三 或 学 校 的 个 体 。 情 况 (3) 中 的 一 个 例子 是 含有 个 体 横 截 数据 ,此 时 回归 元 还 包括 
组 均 便 诸如 在 某 个 州 的 失业 率 或 税率 .面板 数据 的 运用 、 双 胞 胎 数 据 的 运用 ,虽然 
没有 出 现 住户 聚集 。 

24. 2 节 介 绍 抽样 调查 的 一 些 概念 与 术语 。24. 3 一 24. 5 节 分 别 考 察 调 查 数据 
的 三 个 重要 特性 :样本 权重 .分 层 以 及 聚集 。24. 6 节 考 察 既 出 现 分 层 又 有 聚集 情 
饮 的 分 层 线性 模型 。24. 7 节 讨 论 数 据 应 用 。 对 复杂 调查 的 进一步 研究 则 由 24. 8 
节 给 出 。 


24.2 抽样 调查 


在 统计 学 文献 中 ,抽样 调查 已 经 得 到 很 好 的 探索 ,这 是 因为 数据 收集 必须 在 任 
何 分 析 之 前 完成 ,执行 调查 时 其 成 本 费用 可 能 极为 昂贵 。 调 查 文 献 的 目的 通常 是 
以 最 小 成 本 获得 一 个 样本 ,该 样本 能 提供 总 体 参数 ,尤其 是 总 体 均 值 的 无 偏 且 合理 
又 准确 的 估计 值 。 

多 阶段 调查 结构 已 申 3. 2 节 描 述 。 美 国 当 前 人 口 调查 (CPS) 是 这 类 样本 设计 
的 一 个 重要 例子 。 


24.2.1 当前 人 口 尊 查 


当前 人 口 调查 (Current Population Survey, 记 为 CPS) 是 一 种 每 个 月 大 致 对 
56 000 个 住户 进行 的 调查 ,其 目的 是 作为 16 岁 及 更 大 年 龄 百姓 的 非 公共 机 构 总 体 
的 一 个 代表 。 在 较 小 州 里 ,住户 被 过 度 抽 样 ,以 便 提 供 更 可 靠 的 州 层面 数 据 。 为 了 
减少 访问 成 本 , 某 个 州 内 的 调查 住户 被 聚集 起 来 。 具 体 地 讲 , 一 些 住户 被 连续 访问 
4 个 月 ,访问 停止 8 个 月 ,然后 对 另 一 些 住户 访问 。 重 新 访问 可 减少 调查 成 本 ， 
4 -8-4 方 案 容许 进行 某 种 纵向 分 析 , 包 括 一 年 的 差异 。 存 在 类 似 大 小 的 8 个 轮换 
组 (rotation groups) , 每 个 月 都 引进 一 个 新 轮换 组 。 我 们 考察 有 一 个 轮换 组 的 抽样 
设计 。 

具体 地 讲 , 存 在 792 个 层 ,每 一 个 层 是 某 个 州 的 一 个 子 地 区 ,或 者 在 某 些 情况 
下 是 一 个 州 。792 个 层 被 划分 成 2 007 个 PSU, 其 中 ,PSU 可 能 是 城市 统计 区 
(MSA), 当 MSA 覆盖 一 个 以 上 州 .单个 乡村 或 者 两 个 或 更 多 相 邻 乡村 时 ,就 出 现 
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州 与 MSA 交叉 ,而 当 PSU 具有 低 人 口 数 或 大 区 域 时 , 便 违 背 这 个 方案 。 平 均 地 
讲 , 每 一 个 层 有 2. 5 个 PSU。 就 792 个 层 而 言 ,432 个 层 才 仅 有 1 个 PSU ,在 此 情 
况 下 ,PSU 称 为 目 代 表 (sel 人 representing) , 而 且 总 是 被 包括 在 CPS 调查 之 中 。 其 
他 360 个 层 拥有 不 到 一 个 PSU ,准确 地 讲 , 每 一 个 PSU 都 是 随机 地 从 房 中 选择 出 
来 ,其 概率 与 1990 年 人 口 成 比例 。 

对 于 PSU 内 部 来 说 ,不 存在 中 间 的 SSU。 调 查 直 接 对 样本 USU 进行 抽样 ,从 
地 区 上 看 ,大 人 臻 有 四 个 地 址 的 紧密 组 。 倘 若 从 层 中 抽取 PSU 的 概率 小 , 则 抽样 概 
率 增 大 ,而 当 PSU 位 于 小 州 时 ,通常 会 增 大 抽样 概率 ,允许 对 人 口 数 少 的 州 过 度 抽 
样 。( 在 这 种 计算 中 ,将 纽约 和 洛杉矶 处 理 成 州 。)USU 中 的 全 部 住户 都 会 被 调查 ， 
除非 USU 拥有 异常 多 的 住户 ,在 此 情况 下 ,就 要 对 住户 子 集 进 行 随机 抽取 ，。 

CPS 被 设计 成 利用 州 自 加 权 (self-weighting) ,因而 尽管 使 用 非 随机 抽样 ,但 
CPS 应 该 为 每 一 个 州 提供 一 个 代表 性 样本 。 不 过 ,未 加 权 的 样本 当然 不 是 代表 性 
的 ,因为 对 人 口 数 少 的 州 进行 过 度 抽样 ,并 且 不 是 所 有 的 PSU 都 能 被 抽取 到 。 


24. 2. 2 ” 搞 样 


在 离开 抽样 调查 的 更 详细 分 析 之 前 ,我 们 在 没有 复杂 情况 比如 分 层 情 况 时 对 
抽样 基础 给 出 一 个 简略 描述 。 

议 z 表示 变量 回 量 ,这 里 不 必 对 因 变 量 与 回归 元 变量 加 以 区 分 。 我 们 假定 ,总 
体 中 变量 z 是 iid 的 ,具有 密度 f(z)。 总 体 是 一 个 容量 为 N* 的 总 体 ,而 样本 具有 
容量 N。 样 本 是 {z; ,i 一 1,…,NN) ,其 中 ,i 表示 第 i 个 抽样 单元 。 在 抽样 文献 中 , 通 
毅 符 号 n 用 于 表示 样本 量 ,而 N 用 于 表示 总 体 容 量 。 不 过 ,我 们 继续 用 N 表示 样 
本 量 , 因 为 仅 在 偶尔 机 会 才 引 入 总 体 容量 N”* 。 

穷尽 抽样 

在 穷尽 抽样 (exhaustive sampling) 下 ,总 体 的 每 一 个 元 素 都 会 被 抽取 ,因此 , 样 
本 就 是 总 体 。 这 种 抽样 在 个 体 层 面 数 据 上 极 少 用 到 。 在 人 口 普查 诸如 美国 10 年 
一 次 的 人 口 普查 中 ,就 会 遇 到 。 然 而 ,甚至 对 普查 来 说 , 子 抽样 用 于 较 长 问卷 ,研究 
人 员 更 乾 欢 用 易于 管理 的 普查 子 样本 来 展开 工作 ,而且 在 实际 应 用 中 , 普查 覆盖 面 
是 不 完整 的 。 对 厂商 层面 数据 而 言 ,穷尽 抽样 则 更 为 普遍 采用 ,例如 , 某 个 行业 的 
全 部 厂商 可 能 都 是 研究 内 容 。 

穷尽 抽样 引发 了 对 通常 推断 方法 是 否 合理 的 争论 ,因为 样本 和 矩 等 于 总 体 矩 。 
通常 程序 还 是 使 用 通行 的 推断 方法 。 这 样 做 时 ,是 将 有 限 样 本 看 成 来 自 一 个 无 限 
超 总 体 (superpopulation) 的 一 个 样本 。 

例如 ,假定 关注 内 容 是 工作 场地 中 性 别 之 间 工 资 的 差异 ,该 工作 场地 有 包含 
20 名 男性 导 12 名 女性 的 一 个 总 体 , 他们 的 工作 任务 类 似 。 对 于 工作 场地 上 所 有 
男性 与 文 性 来 说 ,他 们 都 赚 取 工资 , 故 这 个 样本 是 总 体 , 可 以 发 现 , 就 平均 工资 而 
言 , 尹 性 高 于 女性 。 一 种 习惯 做 法 是 ,对 平均 工资 差异 进行 传统 假设 检验 , 而 不 是 
得 出 如 下 结论 :由 于 样本 均值 等 于 总 体 均 值 ,所 以 有 100% 的 把 握 确 定 ,男性 工资 
较 高 。 其 根本 原因 是 ,在 此 特定 工作 场地 的 总 体 被 看 成 是 来 自 工 作 场 地 超 总 体 的 
一 个 样本 ,或 来 目 在 众多 时 点 上 特定 工作 场地 超 总 体 的 一 个 样本 。 


做 观 经 济 计量 学 

穷尽 抽样 费用 昂贵 ,而且 一 般 地 讲 , 对 大 样本 来 说 ,不 必用 穷尽 抽样 ,除非 实际 
总 体 大 小 必须 是 确定 的 。 相 反 ,通常 对 总 体 的 子 集 加 以 抽样 。 

简单 随机 抽样 

简单 随机 抽样 (simple random sample) 是 指 那 种 观测 值 随机 地 从 总 体 抽取 且 
具有 同等 概率 的 抽样 。 样 本 出 现 的 每 一 个 观测 值 都 具有 等 于 样本 量 被 总 体 容 量 除 
的 概率 ,同时 拥有 相同 的 边缘 密度 f(z)。 这 里 添加 定语 “简单 ”, 因 为 更 系统 的 抽 
样 方法 通常 还 具有 随机 元 素 。 

有 限 样 本 校正 

大 多 数 经 济 计量 分 析 假 定 , SRS 会 产生 zz 采样 ,这 些 采样 是 独立 的 ,因此 ,在 
SRS 条 件 下 ,样本 的 联合 密度 是 单个 密度 f(z;) 的 乘积 。 假 如 SRS 是 来 自 一 个 无 
限 总 体 , 就 如 同 将 抽样 看 成 是 来 自 一 个 超 总 体 ,或 来 自 一 个 有 限 总 体 且 抽样 是 放 回 
的 ,这 样 做 是 有 道理 的 。 

在 实际 应 用 中 ,对 于 有 限 总 体 来 说 ,SRS 是 不 放 回 的 ,以 此 保证 同一 观测 值 不 
会 两 次 出 现在 样本 之 中 。 于 是 ,甚至 在 SRS 条 件 下 ,观测 值 不 再 是 独立 的 ,为 了 理 
解 这 一 点, 注意 到 ,在 SRS 条 件 下 ,出 现在 样本 中 的 总 体 任意 特定 元 素 的 概率 是 
N/AN*。 不 过 ,已 知 此 元 素 出 现在 样本 中 , 则 样本 出 现 的 任何 其 他 元 素 的 概率 为 
(N 一 1)/CN* 一 1)。 很 明显 ,条 件 概 率 不 同 于 无 条 件 概率 。 更 正式 地 讲 , 人 们 引进 
一 个 指示 变量 以 表明 总 体 的 每 一 种 情况 是 否 出 现在 样本 中 。 这 些 指示 变量 服从 联 
合 多 项 式 分 布 ,其 均值 为 x, 方差 为 x(1 一 7) ,而 协 方 差 为 一 x(1 一 x)/(N' 一 1), 其 
中 ,x 一 N/N'*， 

样本 观测 值 之 间 的 相关 是 DO 1 人 CN” 一 1)， 其 中 0 被 称 为 群 内 相关 (intra- 
class correlation)。 设 z 是 一 个 纯 量 ,得 出 该 样本 均值 为 一 六 -zi 其 方差 为 
Vlzj 一 NV[|2;z;j] ,该 式 并 不 能 简化 成 N22;VLz;j], 原 因 是 z; 的 相关 性 。 例 
如 ,经 过 一 些 代 数 运算 , 克 柯 伦 (Cochran,1977, 第 23 一 24 页 ) 得 出 : 

V[z] 一 (1 一 各 

其 中 ,ff 一 N/N"* 表示 抽样 比例 , 克 柯 伦 著 作 中 的 一 些 结果 经 党 利用 S: 一 (N* 一 1) !X 
2 人 (2 一 zz) ,而 不 是 利用 通常 有 限 总 体 方差 一 NN*! 2 (z; 一 z)* 加 以 进一步 简化 。 

因而 ,对 于 源 目 有 限 总 体 的 不 放 回 抽样 来 说 ,样本 均值 的 方差 等 于 通常 S/N 
乘 以 一 个 有 限 样本 校正 项 (finite-sample correction term)1 一 f。 该 校正 项 出 现在 调 
查 数 据 的 统计 软件 包 中 , 当 不 考虑 有 限 样 本 校正 项 时 ,就 产生 传统 的 统计 推断 , 因 
为 VLiz] 被 过 高 估计 。 对 于 使 用 来 自 放 回 SRS 数据 的 回归 来 说 ,类 似 地 ,有 限 样 本 
校正 是 一 个 有 关 的 内 容 , 尽 管 OLS 估计 量 方差 的 偏 傈 范围 及 程度 现在 都 另外 依赖 
于 设计 短 阵 。 

在 微观 经 济 计 量 学 中 ,有 限 样 本 校正 项 经 党 被 忽略 掉 。 这 样 做 ,经 党 是 合理 
的 。 例 如 ,对 于 住户 调查 数据 来 说 ,样本 量 相 对 于 总 体 容量 而 言 很 小 ,所 以 f= 二 
N/N*— 0, 


24.3 加 权 


住户 调查 比如 CPS, 经 常 以 下 述 方式 建立 起 来 :不 同 住户 拥有 进入 样本 的 不 同 
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概率 。 为 了 校正 这 种 情况 ,对 每 一 个 观测 值 都 要 指派 一 个 权 数 。 

正如 下 面 将 要 解释 的 , 倘 硅 分 层 是 外 生 的 ,大 将 回归 看 成 是 一 个 工具 ,以 此 刻 
男 总 体 啊 应 ,就 应 使 用 权 数 ,可 是 如 果 回 归 模 型 被 假定 成 一 种 正确 的 结构 模型 ,就 
不 需要 使 用 权 数 。 


24. 3. 1 样 杰 权 数 


假定 总 体 的 每 一 个 住户 出 现在 样本 i 中 的 概率 为 x ,而且 假定 该 概率 与 SRS 
不 同 , 随 着 不 同 住户 而 变化 ，。 

诸如 一 般 样本 均值 统计 量 , 对 所 有 观测 值 都 给 予 同 等 权 数 , 这 将 出 现 对 以 高 概 
率 出 现在 样本 中 的 住户 给 予 太 大 的 权 数 。 可 运用 加 权 方 式 来 修正 上 述 情 况 , 即 利 
用 与 包含 于 样本 的 概率 成 反比 例 的 样本 权 数 : 


TU; OC 1/x. (24. 1 ) 
例如 ,我 们 可 以 用 加 权 均 值 : 


fw 一 和 Dj wizi/ Dw: 
了 上 


代 蔡 二 NN ! 2;z;。 注 意 到 , 式 (24. 1) 的 所 有 问题 具有 比例 性 。 倘 若 我 们 用 权 数 之 
和 去 除 , 则 不 必要 求 权 数 之 和 为 1。 一 种 共同 标 度 是 2w; 二 NN* ,在 此 情况 下 , 权 数 
w; 意味 着 该 观测 值 代表 总 体 中 ww; 人 住户。 注意, 使 用 权 数 时 小 心 慎 重 。 相 反 , 某 些 
推断 定义 wiccrm ,而 某 些 计算 机 软件 中 ,加 权 均 值 作为 2; Cz;/w;)/ 2;(1/rw;)。 利 
用 样本 权 数 的 倒数 ,很 容易 不 正确 地 加 权 。 

对 于 来 自 容量 为 N* 的 有 限 总 体 的 容量 为 N 的 SRS,x; 二 1/N'*, 故 w; 是 一 个 
常 值 ,从 而 ZW OO—— 宛 。 

对 于 层 内 具有 SRS 的 简单 分 层 抽样 ,假定 知道 ,总 体 容量 N ”的 一 部 分 旦 , 处 
于 第 * 层 , 并 且 N, 个 观测 值 来 自 第 * 层 , 那 么 x; 二 NN,/HN*。 由 此 可 得 ,样本 权 数 
woCH./N,. 

对 于 两 阶段 无 分 层 抽 样 , 设 x. 是 第 c 个 PSU 被 抽取 的 概率 ,而 xi 是 位 于 第 - 
个 PSU 之 中 的 住户 7 被 抽取 的 概率 。 那 么 样本 权 数 wj. oc 1/(rNericN)， 其 中 ， 
N. 表示 位 于 第 c 个 PSU 中 的 调查 住户 数 , 而 N= 二 >.N.。 人 倘若 每 一 阶段 抽样 概率 
均 与 总 体 数 成 比例 , 则 两 阶段 样本 是 自 加 权 的 ,因此 x 二 Ni:/AN* ,zi 二 1/N: ,其 中 ， 
N° 表示 第 c 个 PSU 的 总 体 数 。 于 是 ,如 同 SRS 一样 , 权 数 wi. 都 是 同等 的 ,尽管 就 
两 阶段 抽样 而 言 ,估计 量 标准 误差 还 必须 加 以 调整 ,如 同 24. 8 节 将 要 证 明 的 。 

对 于 CPS, 即 对 小 州 住户 过 度 抽样 ,看 起 来 使 用 vw;SH,/N;, 就 足够 了 ,其 中 ，,s 
表示 州 。CPS 将 上 式 作 为 一 个 基准 权 数 ,可 是 当 USU 拥有 太 多 住户 时 ,对 USU 
内 的 二 次 抽样 加 以 调整 ;因此 ,如 果 抽 样 PSU 与 其 层面 标准 相差 其 远 时 ,此 层 的 调 
查 住 户 可 能 不 是 层 的 代表 。 这 就 导致 了 两 个 另外 调整 。 首 先 ,针对 层 水 平 的 非 代 
表 性 种 族 ( 黑 人 / 非 黑 人 ) 组 成 进行 调整 。 其 次 ,为 了 确保 (由 州 、. 民 族 、 女 性 或 年 龄 
形成 的 ) 重 要 子 组 的 样本 估计 值 匹配 独立 总 体 数 据 , 要 对 权 数 加 以 调整 。 有 关 详 细 
内 容 , 参 见 美国 人 口 普 查 局 (2002)。 一 旦 控制 住 源 自 州 .民族 .性别 以 及 年 龄 维度 
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的 美国 居民 总 体 所 引起 的 CPS 差异 ,为 了 允许 CPS 提供 自然 代表 性 统计 量 , 要 建 
六 CPS 样本 权 数 。 

对 于 多 阶段 调查 来 说 ,实际 样本 权 数 的 计算 涉及 相当 复杂 的 估计 程序 。 权 数 
可 能 钻 错误 地 估计 ;即使 权 数 被 正确 地 估计 出 ,但 权 数 可 能 考虑 到 唯一 的 样本 非 代 
表 性 的 某 些 维度 。 


24. 3.2 加 权 阿 归 


当 得 到 样本 权 数 时 ,人 们 应 该 怎样 实施 加 权 回 归 呢 ? 当 分 层 不 是 针对 因 变 量 
时 ,我 们 详细 考察 这 个 问题 。 
关于 因 变 量 的 分 层 ,24. 4 节 将 给 予 讨 论 。 


考察 线性 回归 
y; =— XB tu (24. 2) 
的 估计 ,已 知 含有 抽样 权 数 rw 的 调查 数据 。 两 种 可 行 估计 量 分 别 是 OLS: 
Brs=(XX)-'X’y (24. 3) 
以 及 使 用 抽样 权 数 的 WLS: 
Bas=X WX) 1X’ Wy (24. 4) 


其 中 ,W 一 Diagl ro: | o 

正确 设 定 条 件 均值 

如 果 假 定 ELu|xj 二 0, 那么 OLS 估计 量 就 是 合适 的 ,因而 其 条 件 均值 关于 是 x 
线性 的 : 


El vy;|x; ]=x;6 (24. 5) 


于 是 ,OLS 关 于 6 是 一 臻 的。 进一步 地 ,如 果 误 差 u 都 是 同方 差 的 ,由 高 斯 一 马尔 
可 夫 定 理 知 ,OLS 是 二 阶 矩 有 效 的 。 在 这 些 假设 下 , WLS 估计 量 关 于 B 也 是 一 致 
的 ,但 当 误 差 是 同方 差 时 [由 于 式 (24. 5) 中 权 数 控制 样本 为 非 代表 性 而 不 是 异 方差 
性 ], WLS 估计 量 将 是 非 有 效 的 。 

不 正确 设 定 条 件 均值 

在 许多 应 用 中 , 式 (24. 5) 并 不 成 立 。 一 些 例子 包括 下 述 情况 ;省 略 回归 元 或 当 
E[y|xj 关 于 x 是 非 线性 的 情况 ,或 者 ELy,1x] 二 x/B;, 其 中 ,6; 的 某 些 成 分 与 % 相 
关 。 线 性 回归 还 能 被 解释 成 在 误差 平方 损失 条 件 下 ,给 定 x 时 y 的 最 佳 线性 预测 ， 
尽管 这 需要 适当 考虑 到 非 代表 性 抽样 。 

在 总 体 中 ,Cy;,x;) 是 iid 的 ,并 且 由 4.2 节 知 ,我 们 总 能 写成 ， 


入 一 中 uw; 
其 中 ,El[u] 二 0,Cov|x,uj 二 0, 而 : 
8 =(ELxx |]) ‘ELxy] 
注意 到 ,不 再 假定 ELulxj 二 0, 因 而 可 能 有 ELy|xj 关 x BB。 
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村 穆 谢 尔 和 邓肯 (DuMouchel and Duncan，1983) 将 参数 B* 称 为 普查 系数 
(census coefficient) 。 回 归 系 数 的 概率 极限 ,可 通过 进行 回归 而 获得 ,这 里 使 用 了 
整个 总 体 而 不 是 非 代表 性 样本 。 

如 果 条 件 均 值 关 于 x 是 非 线 性 的 ,并 且 样 本 是 总 体 的 非 代 表 性 样本 ,那么 一 般 
地 讲 ,OLS 佑 计量 并 不 收敛 到 8* ,因为 就 非 代表 性 样本 而 言 ,'N 1X'X 不 收敛 到 总 
体 矩 ELxx ] ,类似 地 ,N -1X'y 也 如 此 。 从 直观 上 看 , 若 条 件 均 值 关 于 x 是 非 线 性 
的 , 则 没有 理由 认为 , 当 运 用 同一 总 体 的 不 同调 查 样 本 时 ,线性 回归 将 会 得 出 同样 
的 OLS 估计 值 。 

不 过 ,运用 样本 权 数 的 WLS 可 以 一 致 地 估计 出 8 。 具 体 地 讲 , 如果 加 权 和 矩阵 
W 使 得 ， 


N -1X’ WX -* Ffxx’] (24. 6) 
NIX'Wy -> Efxy] 


那么 式 (24. 4) 定 义 的 Bs 收敛 到 Cr 。 

简单 分 层 样本 

加 权 LS 估计 的 绝 大 多 数 分 析 ,都 是 对 于 在 层 内 满足 SRS 的 简单 分 层 抽样 盖 
述 的 。 于 是 ,很 显然 ,如 果 第 i 个 受 访 住户 位 于 第 ; 层 , 那 么 式 (24. 6) 就 满足 ww cc 
H./N.,., 

这 方面 的 文献 还 考虑 到 , 层 内 各 种 不 同 回归 系数 的 可 能 性 。 假 定 ELy |x ] = 二 
XB ,对 于 位 于 * 层 的 住户 。 其 目标 或 许 是 估计 总 体 加 权 参 数 BB 二 NN "1 DN:* 4， 
那么 ,一 般 地 讲 , 不 论 OLS 还 是 WLS 都 不 收敛 到 B&B , 除 非 4 对 不 同 层 而 言 是 同等 
的 或 者 是 iid 的 ,具有 常 值 均值 。 该 结果 的 一 个 著名 例外 是 ,对 y 均值 的 估计 ( 即 
x 二 1 时 的 回归 ), 在 此 情况 下 , 层 样 本 均值 的 加 权 平 均 关 于 总 体 均值 是 无 偏 的 。 对 
于 详细 内 容 , 参见 24. 4. 1 节 以 及 杜 穆 谢 尔 和 邓肯 (DuMouchel and Duncan， 
1983) . 迪 顿 (Deaton，1997) 或 者 乌拉 和 布 罗 伊 尼 希 (CUllah and Breunig，1998 ) 。 

人 们 应 该 用 样本 权 数 吗 ? 

土 述 分 析 能 用 于 回答 ,一 旦 假定 不 存在 内 生 分 层 时 ,是 否 将 样本 权 数 用 于 估计 
中 。 此 处 讨论 考察 ELy| xj 模型 的 (可 能 非 线 性 ) 估 计 问 题 ,但 是 也 可 应 用 于 给 定 x 
时 y 的 条 件 分 布 的 任何 其 他 特定 上 ,诸如 中 位 数 或 密度 。 

假如 人 们 采用 结构 方法 或 解析 方法 ,并 假定 ELy|xj] 模 型 得 以 正确 设 定 , 则 不 
必 使 用 样本 权 数 。 其 结果 能 用 于 分 析 x 变化 时 ELy|xj 的 效应 。 

相反 ,假如 人 们 采用 描述 方法 或 数据 汇总 方法 , 则 应 使 用 权 数 。 于 是 ,回归 被 
解释 成 佑 计 普 查 系 数 。 不 过 ,一 个 重要 告诫 是 ,在 复杂 调查 中 ,很 明显 不 可 能 估计 
满足 式 (24. 6) 的 权 数 ,因为 这 是 层 内 满足 SRS 的 分 层 抽样 情况 。 在 实际 应 用 时 ， 
针对 基于 年 龄 ,性别 与 民族 的 某 些 子 组 ,建立 抽样 权 数 匹配 总 体 比 例 。 无 法 保证 使 
得 此 类 权 数 满足 式 (24. 6)。 

对 于 某 些 数 据 集 , 比 如 有 几 千 个 住户 小 的 纵向 调查 ,的 确 要 发 展 一 种 结构 建 模 
方法 。 不 过 ,此 类 数据 集 通 常 试图 提供 总 体 的 一 个 合理 代表 性 样本 ,利用 整 群 抽 样 
缩减 调查 成 本 。 其 他 一 些 数据 集 , 例 如 ,CPS 被 设计 成 能 提供 准确 描述 测量 , 比如 
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国家 与 地 区 的 失业 率 估 计 。 这 里 ,调查 设计 者 采用 了 普查 方法 ,并 且 事 实 上 当 每 月 
实施 普查 费用 并 不 昂贵 时 ,更 喜欢 每 月 实施 普查 。 

对 于 上 述 两 种 数据 集 的 任何 一 类 ,微观 经 济 计量 学 家 通常 力争 采用 结构 建 模 
方法 (Cstructured modeling approach) 。 举 一 个 例子 ,考察 收入 对 受 教育 水 平 与 社会 
经 济 特征 一 一 比如 年 龄 ,性别 以 及 民族 , 却 没 有 固有 能 力 一 一 的 测量 。 

大 多 数 经 济 计量 学 家 愿意 对 OLS 回归 中 受 教育 系数 给 出 一 个 描述 性 解释 , 原 
因 在 于 受 教 育 的 内 生性 。 于 是 ,其 解释 如 下 :如 果 我 们 保持 某 些 重要 的 回归 为 恒 
定 ,那么 多 受 一 年 教育 会 引起 收入 增加 6%% 的 相当 变化 ,但 不 一 定 是 因果 关系 。 这 
里 ,OLS 回归 中 的 样本 权 数 适合 于 允许 将 估计 解释 成 对 总 体 中 相连 部 分 而 不 是 那 
些 仅仅 可 能 非 代 表 性 样本 的 测量 。 即 使 因果 解释 不 可 行 , 这 个 佑 计 值 也 是 有 用 的 。 
因为 它 测 算出 一 旦 控制 住 某 些 其 他 重要 的 社会 经 济 变量 后 ,对 于 受 教 育 不 同 组 别 
而 言 收 入 是 如 何 变化 的 。 统 计量 的 主要 目的 毕竟 是 数据 汇总 。 

受 教育 系数 的 一 致 估计 值 ,可 通过 利用 更 高 等 的 估计 方法 比如 工具 变量 或 面 
板 数据 方法 来 获得 。 于 是 ,该 系数 就 能 给 出 一 种 因果 解释 。 借 助 于 样本 权 数 进行 
加 权 不 再 是 必需 的 , 斥 管 如 果 误 差 是 异 方差 的 ,通常 加 权 会 改进 效率 。 

一 个 模型 能 否 解 释 成 被 正确 设 定 ,这 是 一 种 主观 判断 。 如 果 模 型 被 正确 设 定 ， 
那么 样本 加 权 与 不 加 权 的 估计 应 具有 相同 的 概率 极限 ,两 者 的 这 两 个 估计 都 是 一 
致 的 。 这 就 建议 ,利用 样本 加 权 估 计量 与 不 加 权 样 本 估计 量 之 差 的 豪 斯 曼 检 验 对 
正确 模型 设 定 加 以 检验 ,这 种 检验 是 由 杜 穆 谢 尔 和 邓肯 (DuMouchel and Duncan， 
1983) 在 线性 回归 情况 下 提出 的 。 


24. 3.3 预测 


考察 具有 正确 设 定 条 件 均 值 g(x,B) 且 无 内 生性 的 非 线性 回归 。 非 加 权 NLS 
估计 量 一 致 地 估计 出 ,并 且 给 出 了 因果 解释 。 特 别 地 ,我 们 能 使 用 93g (x, B)/9x 计 
算 当 x 变化 一 个 单位 时 引起 条 件 均值 的 因果 效应 ，。 
由 于 g(*) 是 非 线 性 的 ,所 以 预测 效应 会 随 着 计算 点 x 不同 而 变化 。 总 体 平均 
啊 应 的 一 个 估计 是 : 
sa "gg(xi, 0) 
PE 守 )= Zw - 六 
其 中 ,ru 表示 样本 权 数 。 关 似 地 ,如 末 相 反 人 们 在 回归 元 均值 处 计算 其 响应 ,那么 
使 用 x 的 总 体 均值 估计 值 , 即 x 的 加 权 样 本 均值 而 不 是 x 的 非 加 权 样 本 均值 会 
更 好 。 
即使 通过 利用 非 加 权 估 计 能 一 致 地 估计 出 参数 ,可 是 假若 人 们 想 要 预测 总 体 
影响 而 不 是 样本 影响, 则 在 后 面 计算 影 啊 时 必须 运用 加 权 。 


24.4 ”内 生 分 层 


分 层 被 人 们 广泛 地 使 用 ,因为 它 能 提高 估计 准确 性 ,或 等 价 地 讲 , 在 给 定 准 确 
性 水 平时 能 减少 调查 成 本 。 例 如 ,在 人 口 少 的 州 里 ,平均 失业 率 更 为 准确 的 估计 可 
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通过 对 该 州 过 度 抽 样 来 获得 。 缘 于 类 似 的 原因 , 对 少数 组 可 进行 过 度 抽样 。 

一 种 新 的 困难 是 ,参数 会 随 不 同 州 而 变化 ,这 一 点 已 在 24. 3 节 考 虑 过 。 例 如 ， 
平均 失业 率 可 能 随 不 同 州 而 变化 。 于 是 ,就 要 采用 描述 方法 ,并 使 用 加 权 估 计量 。 

微观 经 济 计量 学 家 经 常 更 愿意 采用 结构 方法 ,同时 假定 参数 对 不 同 州 而 言 均 
为 党 值 。 那 么 ,由 24. 3 节 知 ,分 层 很 明显 并 不 会 引起 新 的 困难 ,从 而 使 用 非 加 权 回 
归 。 一 个 重要 条 件 是 ,如 果 分 层 建立 在 因 变 量 值 基础 上 ,那么 还 是 出 现 了 问题 。 例 
如 , 若 低 收 入 人 员 被 故意 地 过 度 抽 样 , 并 且 收 入 作为 因 变 量 , 则 通常 回归 估计 量 都 
是 非 一致 的 。 注 意 到 ,假如 分 层 是 关于 回归 元 的 ,比如 性 别 , 则 不 会 产生 问题 ,这 导 
致 间接 地 对 低 收 入 人 员 的 过 度 抽 样 。 如 果 分 层 是 直接 针对 收入 的 , 才 会 出 现 问题 。 

本 节 我 们 将 定义 内 生 分 层 , 并 分 析 其 后 产生 的 复杂 问题 。 然 后 ,我们 阐述 几 个 
一 致 估计 量 。 最 简单 的 是 一 种 加 权 估 计量 , 若 既 已 知 样本 分 层 概 率 又 已 知 总 体 分 
层 概 率 , 就 可 运用 该 估计 量 。 这 种 方法 由 24. 4. 5 节 给 出 ,以 自给 自足 方式 加 以 
阐述 。 
24. 4. 1 分 层 方 案 

对 于 一 般 数 据 zE ZZ , 层 是 2Z 的 一 些 子 集 。 经 济 计量 分 析 通 常 将 数据 分 割 成 
因 变 量 yEJ 与 回归 元 或 自 变量 xE 十 ,其 中 ,考虑 到 一 般 性 ,我 们 允许 y 是 一 个 向 
量 。 于 是 , 层 C 被 定义 成 样本 空间 了 久 二 的 子 集 ,* 王 1,……S。 这 种 记号 由 英 伯 斯 
和 兰 开 斯 特 (Imbens and Lancaster，1996) 使 用 过 ,他 们 冰 述 了 基 些 重要 例子 , 表 
24. 1 重新 给 出 其 内 容 。 

表 24.1 层 内 为 随机 抽样 分 层 方 案 


分 层 方案 定义 对 层 的 描述 

简单 随机 抽样 S=1, C1,=y Xt 一 个 层 涵盖 整个 样本 空间 

纯 外 生 分 层 方案 C= 少 X 世 ,满足 蕊 C 二 。 。 仅 以 回归 元 而 不 以 因 变量 进行 分 层 

纯 内 生 分 层 方案 C 一 关 X 寸 , 满足 儿 CY 仅 以 因 变 量 而 不 以 回归 元 进行 分 层 

增 广 样本 S 一 2，C 一 XX, 通过 样本 空间 的 额外 观测 值 进行 增 
CACY XX 广 随机 样本 

分 守 CTY XX, GNC -YG 样本 空间 被 分 割 成 互 斥 且 充 满 整 个 
UC = x+ 样本 空间 的 众多 层 


屋内 抽样 被 假定 成 随机 的 ,只 是 某 些 层 可 能 被 过 度 抽样 。 由 表 24. 1 可知, 很 
明显 ,各 层 之 和 可 以 小 于 或 大 于 样本 空间 。 对 于 第 四 个 方案 与 第 五 个 方案 ,分 层 可 
能 仅仅 针对 内 生变 量 .外 生变 量 ,或 者 针对 这 两 者 的 混合 。 

经 济 计量 学 文献 关于 含有 内 生成 分 的 抽样 方案 ,因为 在 这 种 情况 下 ,通常 条 件 
MLE 是 非 一 致 的 。 

内 生 分 层 已 在 第 16 章 讨论 过 。 举 一 个 例子 ,考察 截 尾 回归 ,其 中 ,只 有 当 y>0 
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时 我 们 才 观 测 到 y, 所 以 分 层 是 完全 针对 y 的 。 那 么 ,对 于 抽样 数据 来 说 ,给 定 x 
时 y 的 条 件 密度 是 零 截 尾 密度 , 它 是 用 PrLy>01xj] 去 除非 截 尾 密度 ,因而 : 


f(y|x,0) 
1— FO|x,0) 


其 中 ,上 标 用 于 区 分 总 体 密度 f(y|x,0) 与 样本 密度 。 正 如 第 16 章 讨论 的 ,这 个 抽 
样 方案 倾向 于 略 去 给 定 x 时 具有 y 的 低 水 平实 现 值 的 观测 值 。 假 定 ELy|xj = 
B 十 Bp 这 ,并且 应 ~0。 于 是 ,对 于 二 的 低 水 平 值 ,存在 极 多 > 的 相对 高 水 平 值 。 因 
此 , 束 xz 的 低 水 平 值 而 言 ,该 回归 将 过 度 预测 ELy|zj, 导致 截 上 距 h 出 现 向 上 偏 倚 ， 
斜率 出 现 向 下 偏 倚 。 

第 二 个 例子 是 二 值 数据 或 多 项 式 数 据 的 基于 选择 抽样 ,其 中 ,样本 是 基于 离散 
结果 y 来 加 以 选 了 到。 例如 , 知 在 乘 大 巴 与 乘 小 车 往返 工作 之 间 进 行 选择 ,我 们 可 能 
过 度 抽 样 那些 相对 少数 的 大 巴 乘 客 。 该 例子 以 下 述 方式 继续 探讨 。 它 类 似 于 医学 
文献 中 的 病例 对 照 研究 (case-control studies) ,例如 , 因 某 种 疾病 而 死亡 (> 一 1) 的 人 
员 的 一 个 完整 样本 与 因 该 种 疾病 而 未 死亡 的 人 员 (y> 王 0) 全 体 的 一 个 大 小 类 似 的 子 
样本 加 以 对 照 。 其 目标 是 找到 不 止 一 个 回归 元 能 和 否 预 测 > 一 1。 

一 个 有 关 的 例子 是 ,通过 用 户 现场 抽样 (on-site sampling) 搜 集 到 的 访问 数目 
的 计数 数据 ,诸如 娱乐 场合 或 购物 中 心 或 者 医生 办 公 室 。 于 是 ,数据 被 截 尾 , 因 为 
满足 y= 二 0 的 那些 没有 被 抽取 ,另外 高 额 访 问 者 被 过 度 抽 样 。 邵 (Shaw,1988) 已 经 
证 明 ,数据 抽样 分 布 广 (y|x,9) 通 过 方程 


FF(Cy|X 8) 一 


了 
5 X, 10) 一 《 X ,和 明 ) 一 一 一 一 一 一 
f° Cyi fly| ET 六 


与 总 体 分 布 相 联系 ,在 此 情况 下 ,很 明显 ,该 抽样 方案 是 内 生 的 ， 


24. 4.2 分 层 诱 导 内 生性 


抽样 方案 诸如 分 层 方案 导致 样本 密度 不 同 于 总 体 密 度 。 假 如 分 层 仅仅 是 外 生 
的 , 则 尽管 有 这 样 的 差异 ,但 就 样本 而 言 , 由 于 给 定 的 条 件 密度 与 其 总 体 的 一 样 ,所 
以 通常 仍 是 一 致 的 。 不 过 ,如 果 分 层 的 任何 方面 都 是 内 生 的 ,那么 正如 上 述 例子 所 
前 明 的 ,这 些 条 件 密度 会 不 一 样 。 现 在 ,我 们 对 该 问题 给 予 详 细 讨论 。 

ML 估计 的 目的 在 于 一 致 地 估计 出 f(y|x,0) 中 的 参数 8。 一般 地 讲 , MLE 应 
建立 在 来 自 数 据 (y,x) 的 联合 分 布 的 似 然 函 数 基础 上 。 实 际 上 ,直接 从 源 自给 定 x 
时 y 的 条 件 分 布 建立 起 条 件 似 然 函 数 ,这 样 做 时 常 就 足够 了 。 这 种 较 简 单方 法 在 
下 面 假设 下 能 产生 一 致 估计 ,该 假设 是 :对 于 y 来 说 ,x 是 外 生 的 ,在 此 情况 下 ,其 
联合 密度 分 解 成 : 


gl(y, XI0)—= f(y|x,0) XA(x|O) (24. 7) 


其 中 ,x 的 密度 参数 没有 标 出 来 ,因为 人 们 不 希望 估计 这 些 参 数 ， 
我 们 总 是 能 写成 gCy,xX) 二 fCy|x) Xh(x)。 式 (24.7) 做 出 的 假设 是 ,引入 参数 
9,9 出 现在 f(y|x,9) 之 中 而 不 出 现 hx) 中。 一 般 地 讲 , 我 们 更 愿意 写成 ， 
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glys X10)= f(y|x,0) Xh(x|0) (24. 8) 


而 不 是 写成 式 (24.7)。 就 y 而 言 ,x 的 1 个 或 更 多 成 分 是 内 生 的 ,因为 现在 存在 着 
一 种 反馈 ,y 依赖 于 x, 但 x 通过 在 h(x19) 中 出 现 9 而 反 过 来 依赖 于 y。 这 方面 的 
一 个 经 典 例子 是 线性 联 立 方程 。 在 此 类 情况 下 ,ML 估计 应 建立 在 联合 似 然 函 数 


In Liomr (0) = Dln flyi|xi,0) + >, lnkhCx;|0) (24. 9) 
i 一 1 1 二 1] 
的 基础 上 。 由 第 1 章 知 道 , 如 果 : 


0=FE[ 2 eC | 一 E[ 2 /区 人 | + El al 0) | (24. 10) 


就 可 得 到 6 的 一 致 估计 。 当 密度 gC(y,x|98) 得 以 正确 设 定 晶 数据 范围 不 依赖 于 0， 
条 件 (24. 10) 得 以 满足 。 不 过 ,条 件 MLE 极 大 化 条 件 似 然 函 数 ， 


ln La (0) = > ln f(y;|x;,0) 


当 El91n f(y1x,8)/938]| 二 0 时 ,条 件 MLE 是 一 致 的 。 倘 若 x 是 外 生 的 ,由 于 

91ln h(x)/98 一 0, 故 式 (24. 10) 可 以 简化 ,那么 式 (24. 10) 意 味 着 这 个 必要 条 件 成 

立 。 相 有 反 , 夺 x 是 内 生 的 , 则 这 种 简化 就 不 会 出 现 , 因 为 式 (24. 10) 右 边 的 第 二 项 不 
会 消失 。 因 而 , 当 x 是 内 生 的 时 候 , 条 件 MLE 是 非 一 致 的 。 

: 分 层 以 及 类 似 的 抽样 方案 所 产生 的 问题 是 ,即使 总 体 联 合 密度 满足 式 (24. 7) 

且 对 不 同 层 来 说 都 是 相同 的 ,抽样 方案 能 导致 样本 中 的 (y,x) 联 合 密 度 采 取 更 为 一 

般 的 形式 : 


gs(y,x|0)—= f(y|x,0) Xh:(x|0) (24. 11) 


其 中 ,上 标 “s” 用 于 表示 对 所 用 特殊 抽样 方案 的 依赖 性 。 那 么 ,条 件 MLE 可 能 是 非 
一 致 的 ,尽管 看 样本 是 SRS 时 ,条 件 MLE 会 是 一 致 的 。 

在 纯 外 生 抽 样 (pure exogenous sampling) 条 件 下 ,对 于 x 的 边缘 密度 来 说 ,样本 
分 布 与 总 体 分 布 之 间 出 现 唯 一 的 差异 。 假 定 就 总 体 而 言 , 式 (24. 7) 成 立 , 则 样本 有 : 


g’(y,x|0)= f(y|x,0)X hs(x) 


很 明显 ,条件 MLE 将 是 一 致 的 ,因为 条 件 密度 仍然 是 f(y|x,08), 并 且 9 没有 出 现 
在 h(x) 中 ，。 

在 内 生 抽 样 方案 下 ,显然 就 总 体 而 言 , 式 (24. 7) 成 立 , 但 作为 更 一 般 结 果 , 式 
(24. 11) 对 样本 来 说 成 立 。 给 定 x 时 ,y 的 样本 条 件 分 布 与 总 体 条 件 分 布 可 以 不 
同 , 有 ff:*(y|x,0) 关 f(y|x,90) ,并 且 居 (xl9) 可 能 依赖 于 0。 


24. 4.3 内 生 摘 样 


在 纯 内 生 抽 样 下 ,样本 y 的 边缘 分 布 不 同 于 其 总 体 边缘 分 布 。 设 h(y) 表 示 y 
的 总 体 密度 ,而 h*(y) 表 示 > 的 抽样 密度 。[ 我 们 依照 惯例 ,用 g、f 以 及 h 分 别 表 
示 联 合 、 条 件 以 及 边 绿 分 布 。 很 明显 ,读者 会 分 辨 h(y) 与 h(x)。] 
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在 纯 内 生 抽 样 下 ,y 与 x 的 联合 分 布 最 好 是 通过 先 以 x 而 不 是 y 为 条 件 来 获 
得 。 于 是 : 


g'(y,X) = f(x) y) hy) (24. 12) 


其 中 ,给 定 y 时 x 的 条 件 分 布 在 纯 内 生 抽 样 下 并 不 会 受到 影响 , 故 出 现 简 化 ,从 而 
f(x1y) 王 A(x1y)。 现 在 ,我 们 需要 用 f(x|y) 重 新 表述 出 f(y|x)。 从 而 : 


gy ,xX) 
X|Y) 王 一 24. 
f(x|y) Cy) z 《2<4. 13) 


_ f(y|x)h(x) 
hl(y) 


将 式 (24. 13) 代 入 式 (24. 12) ,并 重新 整理 得 到 . 


h:(y) 


xXh 
hey lO ~ 


2g'(y,xX|0)= f(y|x,0) 和 XX 





其 中 
hy|16) = |g(y,x|0)dx 


- | Fo x ,Oh dx 


仅 利用 f(y1x,9) 的 条 件 MLE 将 是 非 一 致 的 ,因为 h(y18) 项 可 被 忽略 掉 。 然 而 ， 
人们 需要 对 夯 外 包括 h(y19) 的 联合 似 然 求 极 大 值 。 
24. 4.4 内 人 生 分 层 样 本 
我 们 现在 考察 24. 4. 1 节 已 经 进入 的 分 层 方案 。 其 总 体 密度 是 、 
gl(y|x,0)= f(y|x,0)h(x) 


这 里 ,存在 S 个 层 ,第 ; 层 是 了 XX 的 子 集 C,。 
位 于 C: 内 观测 值 的 总 体 概 率 与 源 自 C, 的 抽样 概率 之 间 有 重要 差异 ,因为 两 者 
在 分 层 抽 样 方案 上 不 同 。 我 们 定义 : 


且 , 二 Pr[ 从 C, 中 抽取 到 的 观测 值 ] 


(24. 14) 
Q,(8) 二 Pr[ 从 由 C0, 构成 的 总 体 中 随机 抽取 观测 值 ] 
这 里 , 瑟 ; 是 借助 于 样本 设计 的 集合 , 而: 
Q (6) = | fey| x Oh dydx (24. 15) 


层 概 率 可 能 是 未 知 的 ,也 可 能 不 是 未 知 的 。 当 五,>Q, 时 ,就 出 现 对 层 过 度 抽 样 。 
我 们 通过 获得 ;、y 以 及 x 的 联合 密度 来 开始 讨论 ,其 中 ,s 是 一 个 指示 变量 , 表 


gl(s,y,x|0)—=Q.(0)g(y,x|s,0) 
就 样本 而 言 , 层 指示 变量 的 边缘 分 布 不 同 于 Q,, 并 且 : 


2U 分 层 样本 与 整 群 样本 


到 mm 


g’(s,y,xX|0)—=H.g(y,x|s,0) 
fly|x,0)h(x) 
QQ 0) 


其 中 ,第 二 个 等 式 成 立 , 这 是 因为 g(y,x|s) 等 于 密度 g(y,x) 二 f(y|x)h(x) 被 位 于 


5 层 的 总 体 概率 除 , 从 而 在 C; 上 的 积分 为 1。 
由 此 可 得 ,其 联合 密度 是 : 


一 天 


S 号 
gs(syyX|D) OO /YX 0 ROX) (24. 16) 


其 中 ,Q, (9) 已 由 式 (24. 15) 定 义 。 基 于 总 体 条 件 密度 f(y|x,0) 的 条 件 MLE 关于 
0 是 非 一 致 的 ,原因 在 于 它 忽略 了 依赖 于 6 的 项 Q,(0)。 

人 们 可 提出 一 系列 的 一 致 估计 量 。 此 处 ,我 们 考察 极 大 似 然 估计 、.GMM 估计 
以 及 更 为 简单 的 加 权 估 计量 ,这 类 估计 量 实 施 起 来 既 能 提供 层 抽样 概率 瓦 ,, 还 可 
以 知道 总 体 概率 Q,(6) 。 

极 大 似 然 估 计 

实施 基于 式 (24. 16) 中 联合 密度 g*(s,y,x|19) 的 ML 合计 是 一 项 复杂 任务 , 因 
为 由 式 (24. 15) 知 ,Q,(0) 的 分 布依 赖 于 h(x)。 一 种 可 行 求解 是 设 定 密度 h(x)。 该 
方法 并 没有 被 采用 ,因为 经 济 计量 学 家 要 避 开 设 定 回 归 元 分 布 ,尽管 有 设 定 因 变 量 
条 件 分 布 的 意愿 。 

相反 ,对 于 未 设 定 h(x), 人 们 采用 半 参 数 方法 ,其 目标 是 估计 出 设 定 密度 
fly|x,9) 的 参数 。 为 了 简单 起 见 ,假定 总 体 分 层 概 率 瓦 , 已 知 。 科 斯 利 特 
(Cosslett, 1981a) 首 先 通过 设 入 是 以 概率 CO: 出 现 Ki 的 一 种 离散 形式 ,然后 对 联合 
似 然 求 关于 0 与 ww; 的 极 大 值 ,i 二 1,…, NN ,得 到 具有 内 生 分 层 的 MLE。 为 了 得 出 
仅仅 包括 (9 十 S 一 1) 个 参数 8 与 函数 4.(9) 的 一 种 集中 似 然 函 数 , 其 一 阶 条 件 会 失 
效 。 其 次 ,对 这 个 集中 似 然 函 数 求 关 于 8 与 人 , 的 极 大 值 ,从 而 得 出 的 估计 值 与 求 关 
于 0 与 4,(0) 的 极 大 值 相 同 。 最 后 ,由 于 将 4; 处 理 成 参数 是 有 效 的 , 故 同 样 的 方法 
能 用 于 连续 回归 元 的 情况 。 维 数 g 加 上 无 穷 维 未 知 密度 h(x) 的 问题 被 简化 成 
9 十 S 一 1 维 。 

GMM 估计 

科斯 利 特 CCosslett,1981a) 的 著名 结果 很 难 实施 。 

英 伯 斯 (Imbens，1992) 曾 推导 出 较 简 单 的 具有 内 生 分 层 的 GMM 佑 计量 ,该 
估计 量 的 效果 与 科斯 利 特 的 MLE 一 样 。 针 对 通过 多 项 式 抽样 .标准 分 层 抽样 或 
可 变 概 率 抽样 所 得 到 的 分 层 样 本 , 英 们 斯 和 兰 开 斯 特 (Imbens and Lancaster， 
1996) 给 出 了 这 种 估计 量 的 十 分 一 般 的 框架 与 阐述 。 其 联合 密度 再 次 是 式 (24. 16) 
的 g*(s,y,Xx|0) ,并 且 人 允许 样本 层 概率 五 , 可 能 是 未 知 的 。GMM 分 析 建 立 在 下 面 
三 种 方程 与 一 个 最 终 约束 的 基础 上 。 上 有 具体 地 讲 , 这 三 种 方程 分 别 是 : 瓦 , 得 分 的 S 
一 1 个 方程 ;基于 给 定 s 与 x 时 y 的 条 件 似 然 函数 的 8 的 9g 个 方程 ;关于 总 体 层 概 
率 Q,(0) 约 束 的 S 一 1 个 方程 。 最 终 约 束 是 , 当 Q.(9) 存 在 线性 约束 时 ,可 不 必用 该 
约束 ,例如 ,如 果 层 是 互 斥 的 且 窗 盖 样 本 空间 ,就 会 出 现 这 种 情况 。 
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一 


24. 4.5 加 权 人 生计 


当 样 本 层 与 总 体 层 即 由 式 (24. 14) 和 定义 的 也 与 Q, (90) 都 是 已 知 时 ,内 生 分 层 
很 容易 处 理 , 尽 管 估计 量 不 是 完全 有 效 的 。 我 们 在 考察 更 一 般 的 估计 量 之 前 , 以 
ML 估计 开始 。 

加 权 ML 估计 

曼 斯 基 和 药 尔 曼 (Manskl and Lerman， 1977) 曾 经 提出 加 权 极 大 似 然 (weigh- 
ted maximum likelihood， 记 为 WML) 估 计量 。 该 估计 量 对 : 


Qo (0) = 5) Hln fy |x,0) (24. 17) 


求 极 大 值 ,其 中 H; 二 日 ,, 而 Q; 二 Q,, 当 第 i 个 观测 值 位 于 s 层 时 。 

学 斯 基 和 某 尔 曼 (Manski and Lerman， 1977) 称 此 估计 量 为 加 权 外 生 抽 样 佑 
计量 (weighted exogenous sampling estimator， 记 为 WESML) ,因为 式 (24. 17) 用 权 
数 互 ,/Q; 乘 以 在 外 生 抽 样 的 条 件 似 然 中 的 通 当 项 ln f(y |x 9)。 不 过 , 称 博 
WESML 能 够 引起 混淆 ,因为 该 问题 是 一 个 内 生性 问题 , 即 恰好 可 以 证 明 , 对 通常 
外 生 估 计量 进行 适当 加 权 就 得 到 一 致 估 计量 。 

沿 着 类 似 线索 ,目标 函数 Qww.(9) 正 式 地 讲 不 是 似 然 函 数 ,因为 式 (24. 16) 并 
不 蕴含 给 定 x 与 ;时 ,y 的 样本 条 件 密度 是 由 f(ylx;0) 二 f(y|x,0)% :给 出 。 不 
过 ,WML 估计 量 是 一 致 的 。WML 估计 量 是 一 阶 条 件 


OQ; 3ln fly:; |x;,0) _ 
2 7 0 (24. 18) 


的 解 。 当 求 和 式 中 的 项 具有 零 期 望 值 时 ,期 望 针 对 关于 却 (24. 16) 中 的 抽样 密度 
g*(s,ysX|0) 而 取 , 则 这 个 估计 量 是 一 致 的 。 现在 ,在 通常 正则 条 件 下 , 即 就 总 体 而 
言 , 设 定 密度 满足 ELaln F(y|x,6)/36] 王 0, 得 到 : 
人 Co ain f(y|x,0) 
E,| 估 36 | 


_[fQ 9lnf(y|x*,0) H. 


(24. 19) 


- 上 9 ln fy1X%,0) 1 X00) py|x,O h(x) dydx 


38 ooax 


一 0 
因此 ,在 有 内 生 分 层 情况 下 , WML 估计 量 一 致 的 。 

对 于 式 (24. 17) 中 的 目标 函数 Qww.(6) 来 说 ,信息 矩阵 等 式 不 成 立 , 所 以 我 们 
需要 使 用 bww. 的 渐 近 方差 的 三 明治 形式 NA BA ,其 中 : 


人 a* ln fy; | Xi ,0) 


lo 
Abo) 一 plim 2 H. a030 0 


(24. 20) 
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本 本 证 


ln fly; | x%;,0) nf 0) (24. 21) 
和 


TAIQ 
BC6,) = plim NZ ( 育 ) 了 5 


与 科斯 利 特 或 莫 伯 斯 的 ML 估计 量 相 比 ,这 个 估计 量 的 有 效 性 会 差 一 些 , 但 是 它 实 
施 起 来 相对 简单。 当然 , 它 要 假定 有 层 概率 知识 。 

加 权 m 估计 

加 权 ML 估计 量 能 应 用 到 除 条 件 ML 之 外 的 估计 量 。 例 如 , 豪 斯 曼 和 怀 斯 
(Hausman and Wise，1979) 考 察 了 类 似 的 关于 最 小 二 乘 回 归 的 加 权 佑 计 。 

因而 ,假定 满足 SRS, 我 们 对 2;g (Cy; |x%,0) 求 极 小 值 ,得 到 一 阶 条 件 2.;9g(y; | 
x;,0) /98 二 0, 并 且 对 于 总 体 , 假 定 : 


El9g(y|x,0)/90|=0 


这 是 一 致 性 的 必要 条 件 。 那 么 ,抽样 反而 是 内 生 分 层 的 ,如 同 24. 2 节 一 样 ,同时 样 
本 层 五 , 与 总 体 层 Q, 均 为 已 知 , 则 8 由 加 权 m 估计 量 得 到 一 致 估计 gw ,该 估计 量 
Ow 极 小 化 : 


Qu(0) = 5) SqCy|x,0) (24. 22) 
对 于 WML 佑 计量 ,其 一 致 性 证 明 由 式 (24. 18) 与 式 (24. 19) 可 得 ,而 其 方差 矩阵 的 
形式 为 N'A 'BA ' ,其 中 ,A 与 B 已 由 式 (24. 20) 与 式 (24. 21) 给 出 ,只 是 唯一 变 
动 是 由 9gCyi |x; ,98)/90 代替 aln f(y; lx 9)7aog。 伍 德里 奇 (Wooldridge，2001 ) 给 
出 了 一 种 正式 证 明 。 

类 似 地 ,在 内 生 分 层 下 ,对 于 基于 cg 个 总 体 符 条 件 ELh(y,x,0) 二 0 的 估计 来 
说 ,使 用 加 权 估 计 方 程 估 计量 (weighted estimating equations estimator ) , 该 估计 
量 是 


2 EhCYi,X:,0) 0 


的 解 。 加 权 MLE 结果 用 到 了 ,hy; |x; ,90) 用 代替 3 1n f(y |x ,0)。 

注意 到 ,加 权 Q;/Hi; 与 24. 3. 2 节 在 简单 外 生 分 层 抽样 下 关于 普查 参数 估计 所 
提出 的 那些 一 样 。 不 过 ,其 动机 和 截然 不 同 。 本 节 假 定 ,条 件 矩 得 以 正确 设 定 , 所 以 
就 外 生 分 层 抽样 而 言 , 实 施 非 加 权 佑 计 会 是 一 致 的 且 有 效 的 。 如 果 分 层 是 内 生 的 ， 
就 必须 进行 加 权 。 


24.5 聚 集 


关于 加 权 及 分 层 的 24. 3 节 与 24. 4 节 内 容 涵 盖 了 调查 设计 的 一 些 方法 ,此 类 
调查 设计 会 导致 样本 分 布 不 同 于 总 体 分 布 。 抽 样 观 测 值 独立 性 的 假设 要 继续 
保持 。 

实际 上 ,调查 数据 经 常 是 相依 的 。 这 可 能 是 为 了 减少 调查 成 本 而 使 用 育 集 样 
本 ,比如 对 同一 街区 访问 成 和 于 上 万 个 住户 。 在 此 类 情况 下 ,数据 因为 有 共同 的 不 可 
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观测 特定 群 项 ,在 同一 类 中 可 能 出 现 相 关 。 可 是 ,甚至 对 于 SRS 来 说 ,也 会 出 现 这 
种 相依 性 。 例 如 ,可 能 认为 ,对 同一 个 州 的 所 有 住户 来 说 ,存在 不 可 观测 的 共同 
影响 。 

存在 几 种 控制 群 内 的 不 可 观测 相依 性 的 不 同方 法 。 如 果 群 内 不 可 观测 因素 与 
回归 元 不 相关 ,那么 仅 有 回归 参数 的 方差 需要 加 以 调整 。 相 反 , 者 群 内 不 可 观测 因 
素 与 回归 元 相关 , 则 回归 元 参数 估计 都 是 非 一 致 的 ,从 而 需要 其 他 可 供 选择 的 合适 
佑 计量。 依照 是 存在 许多 小 群 还 是 几 种 大 群 ,方法 还 可 能 有 所 不 同 ,所 以 分 析 起 来 
极为 复 来 。 为 外 , 复 末 调查 的 新 困难 ,比如 加权 及 分 层 , 则 推迟 到 24. 6 节 讨 论 。 

下 面 将 阐述 随机 群 效应 与 固定 群 效应 之 间 的 重要 区 别 , 其 记号 与 模型 类 似 于 
面板 数据 分 析 。 下 面 各 个 小 节 闸 述 各 种 不 同 信 计 量 ， 


24. 5.1 特定 群 效 应 模型 


关注 内 容 在 于 给 定数 据 (y; ,x;) 时 线性 回归 模型 的 估计 ,i 二 1,…, 六, 其 中 ,i 表 
示 第 i 个 样本 观测 值 ,比如 住户 。 
考虑 的 内 容 是 ,总 体 回 归 模 型 的 某 些 方面 随 群 c 而 变化 ,c 二 1,…,C。 假 定 在 
整个 样本 中 的 第 i 个 住户 是 第 c 个 抽样 群 的 第 7 个 住户 。 对 于 聚集 数据 来 说 ,一 种 
相当 一 般 的 模型 是 : 
ye =xBt, j=1,,N,, c=1,e,C (24. 23) 


其 中 , Cov[ we ,zc | 天 0, 尽 管 对 于 C 天 CCov| u,. , Ui | 0。 该 模型 通过 下 述 方式 并 
人 了 群 相依 性 :其 方式 是 既 包 括 回 归 参 数 随 不 同 群 而 变化 ,又 包括 误差 在 某 一 群 内 
是 相关 的 。 

这 里 ,我 们 把 焦点 放 在 一 种 情况 , 即 特定 群 效应 模型 (cluster-specific effects 
model ， 记 为 CSEM)， 


yi 一 XicB 十 ac 十 er (24. 24) 


此 处 ,回归 截 距 a. 恰好 随 不 同 群 而 变化 ,而 其 斜率 系数 被 假定 成 对 不 同 群 来 说 是 
一 个 稼 值 。 在 最 街 单 模型 中 ,si 被 假定 成 同方 差 的 : 


si 人 0,o | (24. 25) 


为 了 允许 蜡 方 差 性 与 群 内 相关 ,对 该 假设 加 以 放松 。 总 的 来 讲 , 对 a. 做 出 不 同 假 
设 , 就 会 导致 两 个 截然 不 同 的 模型 ,现在 就 阐述 它们 。 

特定 群 随 机 效应 

就 特定 群 随机 效应 (CSRE) 模 型 而 言 , 式 (24. 24) 的 截 距 a. 是 纯 随 机 的 ,其 分 
布 不 依赖 于 任何 观测 因素 。 在 最 简单 情况 下 ,假定 : 


a ~~[0,0° | (24. 26) 


这 个 模型 非常 类 似 于 面板 数据 的 随机 效应 模型 。 该 模型 刚好 是 六 关于 % 的 一 个 
线性 回归 ,其 新 的 复杂 情况 是 ,误差 项 a 十 ej. 因 同一 群 观测 因素 而 成 为 相关 的 。 
OLS 估计 是 一 致 的 , 却 是 无 效 的 。 重 要 的 是 ,误差 相关 必须 引起 对 OLS 估计 
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量 的 通常 标准 误差 加 以 调整 。GLS 估计 则 是 更 有 效 的 。 

已 知 关 于 gj. 与 a 的 假设 (24. 25) 与 (24. 26), 有 V[La 十 se 一 吧 十 吐 , 并且 
CovLac 十 gjc sae 十 etc」 二 0 ,对 于 了 关 ;。 我 们 定义 如 下 的 群 内 相关 系数 (intraclass 
correlation coefficient ) : 


o —Cor| a. 十 Er ,ac 十 Ei。 (24. 27 ) 


2 
ta 
这 是 (oos ) 与 ( ,0) 之 则 的 一 种 对 应 ,其 中 ,pp 已 由 式 (24.2) 定 义 , 而 = 二 0 十 2。 
CSRE 模型 等 价 于 具有 常 值 群 内 相关 系数 的 模型 。 对 该 模型 也 可 给 出 一 种 贝 叶 斯 
解释 ,将 每 个 观测 值 看 成 拥有 上 自己 的 截 上 aj. ,而 aj. 是 来 自 多 元 分 布 的 一 个 采样 ,并 
日 令 人 感 兴趣 的 可 交换 性 准则 如 下 :aj. 中 的 下 标 只 是 一 个 标记 符号 而 已 ,并 无 实质 
结 打 。 就 一 切 情况 而 论 ,聚集 具有 引起 群 内 误差 项 之 间 正 相关 的 期 望 效 应 。 
特定 群 固定 效应 

就 特定 群 固 定 效应 (cluster-specific random effects， 记 为 CSFE) 模 型 而 言 , 式 
(24. 23) 的 截 距 a 是 随机 不 可 观测 的 ,至 于 CSRE 模型 , 却 可 能 与 回归 元 相关 。 为 
了 识别 ,x 不 再 包括 截 距 项 。 

这 个 CSFE 模型 非常 类 似 于 面板 数据 的 固定 效应 模型 。 该 模型 有 条 件 均 值 
EL yj |Xic syQc 二 XicB 十 a.。 当 省 略 变量 a 与 %i. 相关 时 ,来 自 yj 对 x 回归 的 OLS 
估计 量 B8 仅仅 关于 是 非 一 致 的 。 

对 6 进行 一 致 估计 要 求 对 a 有 一 致 估计 ,假如 群 很 大 , 则 可 能 出 现 此 情况 。 相 
反 , 当 和 群 很 小 ,个 体 a. 就 需要 通过 差分 变换 加 以 剔除 。 

与 面板 数据 分 析 的 比较 

很 明显 ,设置 背景 与 术语 都 密切 地 极 相 似 于 第 21 一 23 章 曾 经 阐述 的 静态 面板 
数据 分 析 。 同 时 ,存在 着 某 些 背离 面板 数据 分 析 的 地 方 。 

在 面板 数据 情况 下 ,对 个 体 比 如 住户 加 以 分 析 , 对 该 个 体 单元 观测 不 止 一 次 ， 
然而 在 聚集 情况 下 ,分析 的 个 体 单元 仅仅 观测 一 次 。 在 面板 数据 记号 里 ,当面 板 是 
一 个 短 面 板 时 ;第 1 个 下 标 表 示 聚 集 单 元 。 然 而 ,在 聚集 记 叶 里 ,jc 的 第 2 个 下 标 
则 是 聚集 单元 。 在 面板 情况 下 ,我们 关注 平衡 面板 ,而 当 N. 随 不 同 群 变化 时 ,聚集 
数据 时 常 是 非 平 衡 的 。 

面板 数据 方面 的 微观 经 济 计 量 学 聚焦 于 短 面板 。 这 类 似 于 拥有 每 群 仪 有 几 个 
观测 值 且 众 多 群 的 情况 。 于 是 , 当 N, 是 小 的 且 C 一 ,我 们 称 为 小 群 (small clus- 
ter)。 男 外 ,出 现 大 群 (large cluster) 也 很 平常 , 即 当 入 .一 co 且 C 是 小 的 那 种 群 。 
对 于 含有 大 群 的 CSFE 模型 来 说 ,少数 几 个 参数 w 要 去 挥 ,并 且 不 会 出 现 非 主 要 参 
数 问 题 。 

与 面板 数据 不 同 , 适 当 的 聚集 单元 可 能 并 不 总 是 清晰 可 见 的 。 例 如 , 束 CPS 
数据 而 言 ,聚集 可 能 被 看 成 在 州 内 引起 的 或 在 层 内 引起 的 ;在 PSU 内 引起 的 或 在 
USU 内 引起 的 。 这 个 问题 推迟 到 24. 6 节 讨 论 。 群 内 相关 被 认为 是 对 在 更 高 汇总 
水 平 上 聚集 减少 。 知 聚集 在 州 水 平 出 现 , 则 该 群 是 大 的 ,然而 契 将 取 集 看 成 在 
USU 水 平 出 现 的 , 则 群 是 小 的 。 此 外 ,一 种 可 能 情况 是 ,数据 集合 并 不 包括 必需 的 
集群 信息 ,比如 层 或 USU 作为 观测 值 。 
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动态 面板 数据 而 非 表 态 面 板 数据 模型 的 类 似 形式 是 ,模型 中 的 yj 不仅 依赖 于 
Xic， 而 且 依 赖 于 xsc ,天 7 。 对 于 聚集 数据 来 说 ,通常 足以 设 定 一 种 同伴 效应 模型 
(peer-effects model) ,该 模型 更 直接 地 包含 群 平均 值 x., 因 为 群 内 的 观测 值 次序 通 
常 不 起 作用 。 

概述 集群 方面 的 三 个 普遍 估计 量 是 24. 5. 2 一 24. 5.4 节 阐 述 的 OLS.GLS 和 
组 内 估计 量 。 这 些 估 计量 的 性 质 已 由 表 24. 2 节 概 括 出 来 ,性 质 会 随 真 实 模型 而 变 
化 。 特 别 重 要 的 是 , 告 真实 模型 是 特定 群 固 定 效 应 的 , 则 OLS 与 RE 估计 量 都 是 
非 一 致 的 ,然而 组 内 估计 量 却 会 得 到 一 致 估计 值 ,只 是 仅 对 那 种 群 内 变化 的 回归 元 
系数 。 其 次 ,即使 回归 元 是 一 致 的 ,为 了 控制 集群 与 下 面 将 要 详 述 的 可 能 异 方 差 
性 ,经常 需要 对 通常 标准 误差 加 以 调整 。 


表 24.2 各 种 不 同 际 集 模型 估计 十 的 性 质 


节 估计 量 群 模型 一 致 性 
24. 5. 2 OLS 随机 效应 是 
固定 效应 不 是 
24. 5. 3 随机 效应 的 GLS 随机 效应 是 
固定 效应 不 是 
24. 5. 4 群 内 而 定 效 应 随机 效应 是 
国定 效应 是 


24. 5.2 OLS 估计 量 


我 们 考察 OLS 回归 
yic = XB Tu (24. 28) 


普通 OLS 是 非 一 致 的 , 因为 有 省 略 变 量 偏 倚 , 当真 实 模型 是 CSFE 模型 ( 即 
wc 二 Qc 吓 ejc ) ,其 固定 效应 a 与 x. 相关 。 那 么 ,就 不 应 使 用 OLS 估计 量 , 而 应 运用 
24. 5.4 节 的 CSFE 佑 计量。 

与 之 相 比 ,CSRE 模型 的 OLS 则 是 一 致 的 ,其 a. 是 随机 效应 并 与 xj. 不 相关 。 
更 一 般 地 讲 ,倘若 wi 与 %i 不 相关 , 则 在 比 CSRE 模型 更 为 丰富 的 zi 模型 条 件 下 ， 
OLS 是 一 致 的 。 我 们 考察 此 情况 下 的 OLS 估计 量 , 关 注 已 知 群 内 误差 项 wu 的 相 
关 性 时 求 正确 标准 误差 。 

记号 

对 式 (24. 28) 群 内 观测 值 加 以 堆放 ,得 出 ， 

y. XBTu (24. 29) 


其 中 ,y 与 由 均 表示 N.X1 维 癌 量 ,X. 表示 N. XK 阶 和 矩阵 。 进 一 步 地 ,对 不 同 群 
登 放 ,得 到 : 


y 一 XG 十 u (24. 30 ) 


其 中 ,y 与 u 均 表示 NX1 维 向 量 , 和 表示 N XK 阶 矩 阵 , 六 一 志 -.N.。 
CSRE 模型 的 三 种 表示 会 产生 描述 模型 (24. 28) 中 OLS 估计 量 的 三 种 等 价 方式 : 
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Bas 一 XXy (24. 31) 


一 = (DXX) > xy 
一 SD my, 


c 一 1 j= c 一 1 j=] 


当 已 知 误差 对 不 同 群 是 独立 假设 时 ,这 些 表述 中 的 第 二 种 形式 尤其 有 用 。 从 
而 ,如 同 前 面 面 板 情况 ,OLS 估计 量具 有 极限 分 布 : 


VN( Bos— 8) SN[0,A- !BA-!] (24. 32) 
其 中 


Ci 
A= plimN > ,XX. (24. 33) 
“一 ] 
[ 
B = plim 六 一 > X uu XxX. 
一] 


这 里 用 到 了 关于 c 是 独立 的 。 对 严 做 出 不 同 假设 会 得 出 B 的 各 种 不 同和 估 计 值 。 
OLS 群 稳健 的 标准 误差 
如 果 一 些 群 是 小 的 ,那么 存在 许多 群 , 当 用 一 y. 一 XB 代替 wu 时 , 式 (24. 33) 
的 B 就 能 被 一 致 地 估计 出 。 由 此 可 得 , Bos 渐 近 服 从 正 态 分 布 ,其 群 稳健 方差 矩阵 : 


C C 和 
VIBs] = (DIXX) > Xi EX(C>XXD) (24. 34) 
(一 | 一] ‘=| 


这 个 公式 没有 对 异 方差 性 与 群 内 相关 性 施加 约束 ,从 而 VLu. 是 无 约束 的 , 因 
此 VLwi | 与 CovLw ,ws 也 无 约束 。 不 过 ,假定 六. 是 小 的 且 C- 一 ce。 统 计 软 件 包 
经 常 给 出 自由 度 修正 。 典 型 地 讲 , 人 们 用 





乘 以 式 (24. 34) 的 估计 ,这 既是 对 6 的 估计 进行 校正 ,也 是 对 实际 应 用 中 群 的 数目 
成 为 有 限 的 校正 。 
为 了 理解 式 (24. 34) 是 如 何 起 作用 的 ,将 回归 元 处 理 成 固定 的 ,并 注意 到 


B = lim 和 一 XELa ux 


于 是 ,利用 估计 值 : 
B= NXiiX 
一 入 一 S > 2 Uj ke FP 和 友 K 
得 到 式 (24. 34) 。 例 如 ,考察 用 了 对 ELy] 的 估计 。 这 是 满足 x 一 1、 [ors 二 了 并且 
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tx 二 yic 一 3 的 回归 (24. 28)。 从 而 ,由 式 (24. 34) 得 出 V[5]= 二 N30, (5 (一 
y))。 与 NN .2 (yj 一 3)? 的 估计 相 比 ,此 处 额外 假定 了 群 内 的 独立 性 。 

CSRE 模型 的 OLS 标准 误差 

群 稳健 估计 (24. 34) 需 要 有 众多 群 。 如 果 对 模型 误差 ww, 的 方差 与 协 方 差 做 出 
菏 些 假设 ,那么 就 可 使 用 一 种 可 供 选 择 的 估计 ,该 估计 应 用 于 仪 有 几 个 群 的 情况 。 
利用 这 些 可 供 选 择 的 佑 计量 ,可 以 得 到 有 关 聚 集 对 估计 方差 影响 的 分 解 结果 。 

特别 地 ,假定 由 式 (24. 24) 与 式 (24. 26) 给 出 的 CSRE 模型 是 合适 的 。 那 么 , 误 
差 Uic 一 CQrc -ey 对 不 同 C 来 说 是 独立 的 ,并 且 在 群 内 有 : 


0 ， 7 一 AR， 
OO ， 7 天 R， 
其 中 ,和 群 内 相关 系数 po 已 由 式 (24. 27) 定 义 。 由 此 可 得 : 
五 一 VLu. | 一 到 L(1 一 0) 工 十 oecec | (24. 35) 


其 中 ,LI 表示 一 个 N.X Ne 阶 单位 矩阵 ,e 表示 一 个 元 素 为 1 的 N.X1 维 向 量 。 
已 知 式 (24. 35) 的 有 ,由 一 般 性 结果 (24. 32) 与 (24. 33) 可 得 


Cov[ wj. » Uke J -| 


C C C 
VL[Brs]= ( DXX) Dr:X[Ll — OL + pee |X.( DO XX) 《<4. 36) 
c=1 c=! c 一 1 


倘 石 群 内 相关 系数 是 常 值 ,这 个 方差 矩阵 估计 量 不 论 是 在 小 群 还 是 大 群情 况 下 均 
为 一 个 党 值 。 关 于 of 与 。 的 明显 估计 量 分 别 是 ，: 


PH NN DF 2 > Da 
0 的 估计 涉及 许多 群 内 对 ， 而 且 一 致 估计 可 通过 利用 群 内 对 的 子 集 来 获得 。 写 成 
N.C(N. 一 1) 的 对 都 是 有 用 的 ,虽然 每 一 个 唯一 的 群 内 对 实际 上 被 成 对 地 记录 成 
cg 与 Wrix 肌 出 现在 求 和 中 ，。 
: 如 果 群 是 大 的 ,就 允许 群 内 相关 随 不 同 群 而 变化 。 于 是 , 式 (24. 35) 与 式 
(24. 36) 能 借助 于 用 上 与 p. 分 别 代替 与 o 而 得 到 修正 。 这 里 ,co: 与 o. 可 用 


2 


N. 
G:C > ， 夺 
NTR-1iA 


~ 


NN N. 
be — KCN 1 3 ;> Da 
得 到 一 -致知 计 。 
通常 OLS 标准 误差 的 偏 人 
当 数 据 出 现 聚 集 时 ,从 直观 上 看 ,OLS 估计 量 的 通常 方差 估计 量 公式 是 : 
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〔 
Vromula| Bos | J ( >》 XX. ) 
C=] 


上 式 低估 了 OLS 估计 值 的 真实 方差 矩阵 ,假定 群 内 有 正 相 关 , 由 于 群 内 每 增 
加 一 个 额外 观测 值 将 提供 少 于 独立 信息 增加 一 个 额外 值 时 的 信息 量 。 我 们 阐述 误 
差 过 程 为 CSRE 模型 的 特有 形式 时 的 这 种 偏 丛 。 考 察 一 种 CSRE 模型 ,在 每 一 个 
群 内 其 回归 元 都 是 相同 的 ,因此 x 一 Xx., 有 日 X. 一 e.x 。 于 是 ,通过 利用 ee 一 N., 式 
(24. 36) 变 成 : 


C (° - 
VIBasd= (DNxx) DP Nel1toN— Dx(2 Nxx) 
“一 二 (一 ) 


此 结果 是 由 克 勒 克 (Kloek，1981) 和 莫 尔 顿 (Moulton，1986) 提 出 的 。 
现在 ,对 平衡 群 进行 专门 研究 ,并 定义 M 是 平均 群 容量 ,所 以 MN. 一 N/C 
为 第 值 。 从 而 ,方差 合计 可 简化 成 : 


C 
VLBs]=[1l+oM— DI Xe(MO Ne ) 
c=1 


而 其 方差 公式 简化 成 2 CM2.xx.) !。 由 此 可 得 ,真实 方差 是 下 面 这 个 数值 ; 
rz 一 [1 十 oCAM 一 1 

乘 以 通常 OLS 方差 宅 阵 估计 。 即 使 po 是 小 的 ,校正 因子 也 会 相当 大 。 例 如 , 奎 平 
均 群 容量 为 M 二 101 个 观测 值 , 则 应 用 V1 十 1006o 乘 以 通常 OLS 标准 误差 。 对 每 
个 群 内 所 假定 的 独立 性 也 会 得 出 呈 的 一 个 有 偶 佑 计 , 但 这 是 拥有 三 阶 的 重要 性 形 
式 。 在 平衡 群情 况 下 , 克 勒 克 已 经 证 明 ,EL 2.2a5 1 二 2 [LN 一 K(1l 十 po(m 一 1))]， 
所 以 我 们 应 该 用 [LN 一 氏 (1 十 o(Cm 一 1))] 而 不 是 [ N 一 Kj] ! 加 以 正规 化 。 

在 实际 应 用 中 , 革 些 回归 在 一 个 群 内 可 能 为 常 值 ,而 另 一 些 回 归 元 则 可 能 变 
化 。 那 么 ,在 回归 拥有 和 截 距 及 纯 量 回 归 元 ( 即 xj.8 = 二 Bi 十 Bj ,) 的 情况 下 ,斯 科 特 
和 和 堆 尔 特 (Scott and Holt,1982) 已 经 证 明 , 关 于 截 距 的 通常 OLS 方差 公式 应 该 用 
1 十 oCM 一 1) 去 乘 ,如同 前 面 所 述 , 只 是 对 于 斜率 系数 来 说 , 则 应 该 用 较 小 因子 1 十 
6.o(CM 一 1) 去 乘 , 其 中 ,6 被 看 成 是 xi 的 群 内 相关 系数 的 估计 值 。 在 模 截 面 应 用 
中 ,5 相对 较 小 ,因此 ,主要 问题 出 在 群 不 变 回 归 元 的 标准 误差 上 。 

莫 尔 顿 (Moulton，1986) 在 一 个 应 用 中 阅 述 ,利用 错误 的 OLS 方差 公式 时 标 
准 误 差 中 的 偏 从 是 相当 大 的 。 他 运用 横 截 面 CPS 数据 估计 了 对 数 工资 方程 ,其 中 ， 
聚集 出 现在 州 水 平 上 。 就 他 的 应 用 而 言 , N 三 18. 946 而 C=49。 针 对 他 的 数据 ,估计 
群 内 相关 系数 为 5 二 0. 032 ,看 起 来 似乎 很 小 。 不 过 , 群 是 大 的 ,并 且 我 们 忽略 是 非 平 
衡 的 ,运用 上 面 平均 群 容量 M= 387 的 公式 作为 指南 , 则 有 二 |L1 十 5M 一 1)|]== 
13.3。 就 州 不 变 回 归 元 而 言 ,可 以 预测 真实 OLS 标准 误差 是 V13.3=3.7 乘 以 通 
常 报告 的 标准 误差 , 它 是 一 个 极 大 的 偶 倚 。( 看 竺 该 种 情形 的 一 种 方法 是 ,对 于 州 
不 变 回 归 元 系数 的 OLS 估计 来 说 ，18 946 个 整 群 观测 值 具 有 相同 的 精度 ,因为 有 
18 946/13. 3 三 1 425 个 独立 观测 值 .就 个 体 变 化 回归 元 而 言 ,其 偏 倚 将 会 更 小 一 
些 , 例 如 当 $, 王 0.10 时 ,L1 十 6i6(M 一 1 二 2.23。 英 尔 顿 没有 报告 结果 ,因为 个 体 
变化 回归 包括 了 问 归 元 。 对 于 州 不 变 回 归 元 ,诸如 某 个 州 的 就 业 增 长 率 这 样 的 变 
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量 ,OLS 的 群 校正 标准 误差 一 般 位 于 3 倍 错 误 标 准 误差 公式 与 4 倍 错误 标准 误差 
公式 之 则 。 

一 个 教训 是 ,对 于 群 不 变性 回归 元 的 OLS 系数 ,其 默认 OLS 标准 误差 中 存在 
很 大 的 同 下 傅 傈 。 就 个 体 变 化 回归 元 而 言 ,也 存在 偏 倚 , 只 是 它 更 小 而 已 。 带 有 整 
群 数据 的 应 用 经 常 包 含 群 不 变 回 归 元 。 有 效 的 统计 推断 需要 获得 控制 聚集 的 标准 
误差 工 。 


24. 5. 3 每 下 群 随 太 殖 应 佑 谎 量 


如 采 随 机 效应 模型 合适 ,那么 GLS 估计 量 一 般 比 上 一 节 的 OLS 估计 量 更 为 
有 效 。 已 知 对 于 不 同 群 具 有 独立 性 ,模型 (24. 29) 的 GLS 估计 量 是 ， 


z C C 
lis.re 一 人 2 XT X) / 2 XE y. (24. 37) 
(一 ] 一 1] 


其 中 ,五 天 VLu jj。 可 行 的 GLS 估计 量 是 用 及 的 一 致 估计 量 五 代替 三 ,一 旦 假定 
正确 设 定 模型 (24. 29) 以 及 误差 方差 矩阵 五 , 则 有 : 


VE his.re 一 3 XE X, ) 
ec 一 1 


对 于 CSRE 模型 , 式 (24. 35) 给 出 的 歼 能 用 五 一 致 地 估计 出 ,其 中 ,o 与 o 都 
要 用 式 (24. 36) 后 面 给 出 的 一 致 估计 值 加 以 代替 。 如 同 面 板 数据 的 随机 效应 模型 
一 样 ,可 行 GLS 估计 量 渐 近 地 等 价 于 另 一 假设 , 即 a 与 ej. 均 服 从 正 态 分 布下 的 
MILE., 

CSRE 模型 吸引 人 的 地 方 是 ,GLS 估计 量 (24. 37) 能 直接 借助 于 变换 回归 


yi OF.— (x. —0 xX) GT 十 (es 一 9E.) (24. 38) 
的 OLS 估计 而 得 以 实施 。 其 中 ， 
0 =1—— ft ip em (24. 39) 


yy 1 十 OoCN. 一 1) Vo: 二 No’ 


本 节 稍 后 将 证 明 该 结果 。 为 了 实施 式 (24. 37) ,我 们 用 4 的 一 致 估计 值 6. 代替 0.。 
如 同 面板 数据 模型 ,可 以 证 明 ,能 够 运用 来 自 这 个 回归 的 通常 OLS 标准 误差 , 当 模 
型 (24. 24) 中 的 误差 sj 是 同方 差 时 。 
当 假 定式 (24. 24) 与 式 (24. 26) 成 立时 ,GLS 估计 量 至 少 与 OLS 同样 有 效 。 在 

所 有 回归 元 都 是 整 群 不 变 的 特殊 情况 下 ,因为 GLS 与 OLS 相 一 致 ,所 以 有 效 性 没 
有 提高 [ 克 勒 克 (Kloek，1981) ]。 更 一 般 地 ,斯 科 特 和 埠 尔 特 (Scott and Holt， 
1982) 给 出 了 与 GLS 相 比 ,OLS 有 效 性 损失 的 一 个 相当 保守 的 上 界 : 

V[e Bas 4(1—o)[1+toC No m1) 1] 

VI > (1+ | Neg 
其 中 ,对 于 任意 向 量 c, No 一 maxtN.} 是 最 大 群 的 样本 量 。 该 界 随 Nu 与 o 而 增 大 ， 
甚至 对 于 N, 一 1 000 与 o=0. 10 来 说 ,与 GLS 相 比 ,OLS 有 效 性 至 多 损失 22%， 
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-= 


针对 GLS 而 言 ,已 知 , 这 些 有 效 性 提高 很 少 , 一 种 更 为 普遍 的 方式 是 关注 含有 
正确 标准 误差 的 OLS 估计 ,除非 由 于 CSFE 模型 合适 ,OLS 就 是 非 一 致 的 。 聚 集 
的 重要 影响 是 ,与 那些 没有 出 现 聚 集 情况 相 比 ,OLS 的 有 效 性 表现 得 更 差 , 这 一 点 
可 以 从 24. 5. 2 节 对 OLS 估计 量 标准 误差 的 计算 讨论 中 明显 地 看 出 来 。 

当 整 群 是 大 的 ,就 对 CSRE 模型 加 以 放松 ,以 使 误差 方差 与 群 内 相关 随 不 同 群 
而 变化 。 于 是, 对 却 (24. 35) 的 五 ,我们 分 别 用 式 (24. 36) 给 出 的 o 与 o 的 一 致 估 
计 值 oi 与 ov 代替 它们 。 

当 整 群 是 小 的 ,类 似 于 OLS 的 式 (24. 34) ,可 以 得 出 一 种 稳健 的 标准 误差 ,该 
运 差 并 设 有 迫使 误差 相关 在 群 内 成 为 常 值 。 于 是 : 


Cc (- C 
VT Fs.rE | 二 | 2 XE. xX. | 2 XS” 六 1 办 3 A | 2 XE ~ 二 
< 一 1 (一 人 


其 中 ,让 一 y 一 和 GinsRE。 该 佑 计 要 求 N. 很 小 是 C 一 co 并 假定 误差 在 不 同 群 之 间 
具有 独立 性 。 
将 GLS 实施 成 变换 模型 的 OLS 
为 了 推导 出 式 (24. 38) ,注意 到 ,对 于 式 (24. 35) 定 义 的 五 ,有 : 
> =[e[(l—o)Ltpoee |] 
] /一 | 
一 了 C1—0) [LL—(p/r.)e.e ) 
其 中 ,r 王 1 十 oCN. 一 1) ,从 而 : 


_ | , 
5 = | (0/N.)e.e) 
OV l—p 


这 里 用 到 了 一 般 性 结果 : 若 e 是 AMX1l 维 向 量 , 其 元 素 都 为 1, 则 ; 

[Iaee | !'!=1—[a/(l++aM) lee 

[Iaee 1 =I—M (1— /ITaM)ee 
现在 , 式 (24. 37) 中 的 XD 'X, 一 (对 2X )' 允 .2X ,其 中 ， 

5 “xX, =[1—(0./N.,)e.e |X. 
一 X 一 Oe x 

而 Xe 一 N20,% ,我 们 可 和 忽略 纯 量 倍数 lc v1 一 o, 因为 当 我 们 类 似 地 考察 
X ZLy 时 , 它 将 被 消 掉 。 从 而 ,得 到 变换 回归 模型 (24. 38)， 
24. 5S. 4 ” 符 定 群 辕 定 开 应 信 计 量 


CSFE 模型 的 基本 思想 简单 朴素 ; 设 群 效应 通过 截 距 项 引入 条 件 均 值 阴 数 之 
中 。 该 模型 是 : 


yi = TXB ej., 7] 二] ,NN,,， C 一 ]，……… ,人 (- (24. 40) 
现在 ,6 与 a. 都 是 待 佑 参数 ,c 二 1,…,C。 


微观 经 济 计量 学 

在 CSFE 模型 中 ,所 有 整 群 不 变 的 回归 元 必须 被 去 掉 , 因 为 它们 并 不 能 从 w 中 
独立 地 识别 出 。 例 如 ,聚集 出 现在 州 水 平 上 , 且 周 定 效应 模型 合适 ,那么 就 不 能 识 
别 州 不 变 回 归 元 比如 州 平 均 失 业 率 的 效应 。 假 如 人 大 们 和 希望 估计 州 不 变 回 归 元 的 系 
数 , 此 时 反而 需要 运用 OLS 或 CSRE 估计 量 。 不 过 ,人 们 应 首先 使 用 类 似 于 面板 
数据 第 21 章 阐 述 的 豪 斯 曼 检 验 , 验 证 CSRE 模型 的 强 假 设 :w 与 回归 元 不 相关 的 
有 效 性 。 

我 们 考察 在 假设 : 

Eje 一 [0 GT | 


下 的 统计 推断 。 这 人 允许 有 异 方差 性 的 未 知 形式 ,但 假定 包含 特定 群 问 定 效应 w ,这 
样 做 足以 控制 群 内 的 任何 误差 相关 。 

这 背离 了 面板 数据 分 析 ; 涉 及 误差 方面 的 时 间 序 询 相 关 , 甚 至 在 通常 包含 特定 
个 体 效 应 之 后 ,产生 更 为 丰富 模型 的 情形 。 不 过 ,如果 人 们 愿意 ,就 能 通过 类 似 
24. 5. 2 节 中 的 那些 方法 ,另外 调整 群 内 相关 的 标准 误差 佑 计量 。 

估计 CSFE 模型 的 一 个 主要 新 困难 是 ,小 群 因 存 在 众多 截 距 a. 而 无 法 估计 
出 来 。 

群 虚拟 变量 模型 

首先 ,我 们 考虑 大 群 , 其中, 群 数 相 对 于 总 样本 量 而 言 相对 较 小 。 于 是 , 截 距 a 
能 通过 直接 进入 每 个 群 的 虚拟 变量 并 用 OLS 估计 出 来 。 设 观测 值 i 表示 第 c 个 群 
的 第 7 个 住户 。 那 么 ,可 将 式 (24. 40) 写 成 一 种 群 虚 拟 变 量 模型 (cluster dummy 


variables model). 
. 
yi = ads XBT+e, i=1,N (24. 41) 
~] 


其 中 ,qd,; 表 示 指 示 变 量 , 当 第 i 个 观测 值 属于 c 群 时 ,d. 王 1 否则 di 一 0。 因而,C 
个 群 指示 变量 比如 州 虚拟 变量 ,都 被 包括 进来 ,并且 为 了 避免 出 现 虚 拟 变 量 困 境 ， 
不 应 包括 截 距 项 。 

对 这 种 模型 进行 OLS 估计 ,不 仅 会 得 到 oi ,…,ac 的 一 致 估计 和 值 ,也 会 得 到 8 
的 一 致 估计 值 ,一 旦 假定 群 数 C 固定 而 六 一 ce 时 。 人 们 能 使 用 通常 艾 克 “怀特 估 
计 , 获 得 对 给 定 异 方差 误差 而 言 是 稳健 的 标准 误差 。 

群 内 估计 量 

当 有 许多 小 群 时 ,我 们 就 不 可 以 再 通过 OLS 估计 模型 (24. 40) 。 首 先 , 申 于 当 
群 数 C 一 oo 时 ,参数 个 数 (C 十 KK) 一 2, 所 以 从 计算 形式 上 看 ,OLS 估计 行 不 通 。 
其 次 ,也 是 更 重要 的 ,因为 参数 数量 随 样 本 量 趋 于 无 穷 大 ,除非 N. 一 ce, 否则 OLS 
估计 量 是 非 一 致 的 。 

通常 ,关注 内 容 在 于 式 (24. 40) 中 的 参数 G ,将 wm， ac 看 成 非 主 要 参数 或 元 
余 参 数 和 11(nuisance parameter) 。 那 么 ,一 种 方便 的 方法 是 ,通过 对 最 初 数据 作 恋 
换 ,清除 固定 效应 。 每 一 个 观测 值 (y ,x ) 都 要 用 其 与 群 平 均 的 离 差 代替 , 即 


[1D 又 称 为 多 余 参 数 。- 一 去 者 注 
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和 本 上 本 本 本 本 


《yi 一 区， Xi 一 X. )， 1 一 ] ， 人 ， CC 1， “9 ( 其 中 ， Ve -一 N iiyie， TT XX. 一 一 
N。 ;Xi. 是 特定 群 平均 值 。 于 是 ,关于 yj 的 模型 (24. 40) 瑚 含 : 


yi V(X —X) Be. —e, (24. 42) 


对 变换 回归 (24. 42) 运 用 OLS, 得 到 6B 的 一 致 估计 。 当 CSFE 系数 也 是 关注 内 容 
时 ,能 通过 a. 二 3 一 XB 加 以 估计 ,尽管 这 种 估计 对 于 小 N. 来 说 不 是 一 致 的 。 

与 第 21 章 相 比 , 可 以 证 明 , 这 是 类 似 于 面板 数据 的 组 内 估计 量 。 至 于 面板 数 
据 , 来 日 对 式 (24. 42) 进 行 OLS 估计 所 得 到 的 8 估计 值 , 与 来 自 对 群 虚拟 变量 模型 
(24. 41) 进 行 OLS 估计 所 得 到 的 8 估计 值 是 一 致 的 。 

类 似 于 线性 面板 模型 ,也 可 以 提出 一 种 群 间 估 计量 (between estimator) 。 在 此 
情况 下 ,53. 对 X. 进行 回归 ,由 式 (24. 37) 知 ,CSRE 模型 的 GLS 估计 量 涉 及 准 差 分 
形式 的 回归 ,其 中 ,在 进行 差分 之 前 要 用 4. 乘 以 群 均值 [由 式 (24. 39) 定 义 ]。 可 以 
证 明 ,GLS 佑 计量 是 群 内 售 计 量 与 群 间 估 计量 的 一 种 线性 组 合 。 从 而 , 当 89. 一 1 
时 , 它 接 近 于 大 NN, 的 群 内 估计 量 。 注 意 到 ,CSRE 模型 中 的 群 内 估计 量 是 一 致 的 。 

当 用 修正 均值 观测 值 进行 回归 时 ,解释 标准 误差 就 要 小 心间 慎 。 因 为 这 种 回 
归 的 自由 度数 目 是 (N 一 K 一 OQ) ,而 不 是 (N 一 K)。 如 果 软 件 忽 略 了 这 种 调整 ,那么 
由 软件 得 到 的 残 差 方差 应 该 用 扩张 因子 (N 一 K)/(N 一 K 一 C) 去 乘 , 而 其 标准 误差 
则 应 该 用 扩张 因子 的 平方 根 去 乘 。 


24. 5.5 对 和 群 殉 应 的 诊断 检验 


在 线性 回归 中 ,在 误差 服从 正 态 条 件 下 ,对 特定 群 国 定 效 应 进行 检验 刚好 是 式 
(24. 40) 的 线性 约束 假设 表 ,: a 二 @2 一 … 二 ac 一 0 的 标准 下 检验 。 这 直接 需要 对 
含有 特定 群 虚拟 变量 回归 与 没有 特定 群 虚 拟 变 量 问 归 的 两 种 R* 统计 量 加 以 比较 。 

在 CSRE 模型 中 , 群 效 应 的 检验 是 委 假 设 于 :oi 二 0 对 HHi: 6 放 0 的 单 侧 检 
验 。 一 种 等 价 检验 也 可 以 表述 成 :利用 式 (24. 27) 定 义 的 H,. 0 一 人 VS H, : o>0 的 
检验 。 该 检验 的 单 侧 LM 检验 统计 量 由 莫 尔 顿 (Moulton，、1987) 提 出 , 即 : 
> (入 区) 一 2 
do [2C2OeN—N) 1] 


其 中 ,二 222U/N, 刀 .表示 实施 y 对 x 的 混合 回归 而 得 到 的 最 小 二 乘 残 差 ,元 
表示 群 c 的 平均 残 差 。 


24. 5.6 非 线 性 模型 聚集 


经 济 计量 学 文献 中 , 带 有 整 群 数 据 的 非 线 性 模型 并 没有 引起 人 们 更 多 注意 ， 
不 过 ,在 生物 统计 学 里 出 版 了 大 量 文章 ,特别 关注 于 二 值 结果 模型 | 绢 德 格 斯 特等 
人 (Pendergast et al. ，1996) |], 而 且 考 虑 了 其 他 一 些 模型 ,比如 泊 松 回归 、 生 和 存 数 据 
的 某 些 模型 。 特 别 蚌 ,分 层 ( 多 水 平 ) 建 模 框 染 也 被 广泛 用 于 二 值 结果 模型 上 ， 

这 里 ,我 们 继续 探索 整 群 数据 与 面板 数据 之 间 的 平行 内 容 。 如 同 线 性 情况 , 数 
据 (y ,Xx;) ,i 二 1,… ,NN 被 写成 标 出 下 标 形 式 的 Gyjc ,Xic) ,一 1，…N，c 一 1，…'(C， 
假定 对 不 同 。 有 独立 性 , 却 人 允许 在 群 c 内 观测 值 具有 相关 性 。 


LM (Z4. 43) 
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针对 聚集 的 mm 估计 
考察 一 种 非 线 性 估计 方 程 佑 计量, 该 估计 量 是 


> Dh, ,x.,0) =0 (24. 44) 


的 解 。 这 些 方程 经 常 通过 对 目标 函数 ,gq (yj;. ,x%. ,0) 求 极 大 值 或 求 极 小 值 而 获 
得 ,在 此 情况 下 ,h(y. ,x ;0) 一 9g《yi ,Xi.,0)/930。 例如 ,建立 在 边缘 密度 h(y， 
Xj. ,0) 一 9 1n f(yj. [Xj ,0) /930 乘积 基础 上 的 拟 MLE。 

我 们 假定 数据 是 整 群 的 ,因而 Cov[hj ,hw ] 关 0。 不 过 ,保留 一 致 性 必要 条 件 : 
ELhCy ,%i. ,0) | 二 0 的 假设 ,这 排除 下 面 将 阐述 的 特定 群 固定 效应 模型 。 

很 容易 对 OLS 估计 量 (24. 34) 的 群 稳健 方差 加 以 校正 ,以 便 适 应 当前 情况 , 即 
用 9hj./98 代替 xi ,并 且 用 hj. (0 ) 代 替 xia 。 于 是 ,6 渐 近 服从 正 态 分 布 ,其 群 
稳健 方差 矩阵 为 : 


VI61— (> 





ah 1 J/ NY 2h 1 
Te |, ) 立 忆 2 (9 ) hs (6) (> |;) (24 45) 


有 的 计算 软件 将 此 作为 许多 非 线性 参数 模型 的 一 个 标准 选项 。 
一 个 重要 例子 是 ,建立 群 内 边缘 密度 乘积 而 不 是 联合 密度 基础 上 的 拟 ML 伯 
计 。 其 体 地 讲 ,已 知 对 群 内 c 的 不 同 / 具有 相关 性 ,我 们 应 极 大 化 对 数 似 然 ， 





C 
In 1.(0) = Dj ln fy yn) Xi ,XN DO) 
一 | 


不 过 ,以 联合 密度 开始 研究 很 困难 ,或 者 很 难 获得 联合 密度 ,因为 对 于 许多 一 元 密 
度 来 说 ,多 元 密度 存在 的 范围 有 限 。 然 而 ,我 们 可 以 极 大 化 : 


C 
CC) -一 2 lIn| fly 9 和 Al ,0) 入 "入 f (YN, ”KN ,0) | 


一 bp f (yj.， 


这 不 骨 是 真实 似 然 隆 数 , 除 非 y,. 对 不 同 7 是 独立 的 ,因此 信息 矩阵 不 再 能 应 用 。 
运用 hj. (0) —91n f(y ,Xi ,0) /00 Hoh;. (0)/90 一 92 ln f(y; ,x ,0)/0000 ,前 面 
公式 得 到 应 用 。 

这 意味 着 ,在 每 个 群 内 ,我 们 不 能 利用 每 个 观测 值 的 似 然 得 分 ,如 同 存在 独立 
观测 值 的 情形 ;相反 ,我们 要 用 整 群 元 素 上 的 似 然 得 分 之 和 代替 它 。 

非 线性 特定 群 随 机 效应 

非 线 性 模型 的 特定 群 效 应 的 相当 一 般 设 置 是 ,考察 极 大 化 或 极 小 化 下 式 的 佑 
计量 : 


COGai ,* ac) 一 一 > > ao, ,2,9 ,3 ,a.) (24.46) 


c=] j:= 


其 中 , 群 效应 经 由 纯 量 参数 w 而 引入,c 二 1,…,C。 一 种 简单 的 随机 效应 模型 假定 
a 是 iid 的 ,并 具有 参数 6。 关 于 a 家 册 组 得 目标 函数 ， 


必 Up 分 层 样本 与 整 群 样本 


可 


Ci N. 
Q(B = DD gy sw Bo) fa dB da 
“一 |] ”了 = 一 | 


特别 地 , 当 此 和 式 积分 不 存在 闭 形式 表达 式 时 ,估计 起 来 极为 复杂 。 

经 营 容 多 得 到 关于 一 个 观测 值 的 期 望 ,E, [gCyi,%,B,a)]=9 (yi,%. ;6,06).。 
于 是 ,一 种 较 简 单 的 估计 量 是 忽略 聚集 ,并 求 Q@* (B68,6) 二 229 (yi ,Xi.，,B,6) 的 
极 小 值 ,该 估计 值 是 一 致 的 ,尽管 对 于 聚集 来 说 ,需要 利用 式 (24. 45) 的 标准 误差 加 
以 调整 。 

例如 ,针对 计数 数据 ,我 们 发 展 一 种 面板 泊 松 一 伽 玛 混 合 模型 的 整 群 数 据 形 
式 。 不 过 ,忽略 了 聚集 的 泊 松 拟 MLE 还 是 能 得 到 应 用 的 ,因为 它 是 一 致 的 ,尽管 
针对 聚集 情况 ,标准 误差 需要 加 以 调整 。 

因此 ,即使 人 们 发 展 了 非 线性 模型 的 随机 效应 形式 ,但 一 种 适宜 的 方法 是 ,经 
常 通过 忽略 聚集 后 对 参数 进行 估计 ,然后 对 于 聚集 情况 修正 估计 量 的 标准 误差 。 
除 潜 在 提高 有 效 性 以 外 ,很 少 有 理由 去 估计 整 群 随机 效应 模型 。 

非 线 性 特定 群 固定 效应 

竺 定 群 国定 效应 模型 的 非 线性 变形 是 对 


Q(B ,al,* *,Q0) 一 3 Dcy, » Xi Ga.) 


“二 1] 7 


求 极 大 值 或 极 小 值 ,如同 式 (23. 34) 二 一样 ,只 是 现在 参数 a ,…,ac 是 每 估 的 ,而 
不 是 积分 去 邱 。 

对 于 大 整 群 , 即 C 小 且 NN. 一 ,我们 仅仅 对 Q(B ,Ql,…,ac) 求 大 于 B 与 
Ul"""Qd 的 最 优 值 。 一 旦 假定 CI sc 完全 控制 任意 隘 集 ,推断 就 能 建立 在 通常 
由 iid 假设 获得 的 标准 误差 基础 上 。 这 是 特定 群 虚拟 变量 模型 (24. 41) 的 非 线 性 类 
似 形式 。 

对 于 小 整 群 , 即 N. 小 上 且 C ->co ,就 会 出 现 太 多 的 非 主 要 参数 oa ,… ,ac 问题 。 
与 线性 模型 不 同 ,一 般 地 讲 , 不 可 能 去 掉 参 数 wu,，……acL 得 尔 和 赛 邦 尼 (Hall and 
Severini，1998)]。 不 过 ,由 第 23 章 面 板 数据 ,我 们 看 到 ,在 一 些 情况 下 去 挥 参 数 
Ql1，,"…,ac 是 可 能 的 。 

例如 ,含有 群 固定 效应 的 二 值 logit 模型 设 定 : 


四 ] 


其 中 ,为 了 识别 ,xi 不 能 包括 截 距 或 群 不 变 回 归 元 。 固 定 效 应 a. 能 利用 条 件 MLE 
加 以 去 掉 , 这 里 的 条 件 MLE 是 以 群 内 响应 之 和 六 1 yj. 二 Ncy. 为 条 件 的 。 第 “个 
群 的 联合 条 件 概率 是 : 

ee 二 一 exp (B82 =] Xj Vije ) 
Pr ye ye | NS aeB exp( Bj Xicd jc ) 


TI2; = Yic +1 PLAN. 一 2 1yix 十 ] | 
FPCNL 十 1 








(24. 48) 


C1 原著 中 这 里 为 式 (24. 34) ,应 为 式 (23. 34)。 一 一 译 者 注 
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其 中 ,B. 二 {di ,…,dn)|qd, 一 0 或 1, 且 3dj;. 二 yj;.}。 条 件 似 然 是 关于 所 有 群 
项 比如 这 些 项 的 一 个 乘积 ,而 容量 为 1 的 群 则 被 该 似 然 消 数 排斥 在 外 。 右 边 第 二 
项 不 依赖 于 未 知 参数 ,从 而 不 会 影响 到 似 然 函 数 的 极 大 化 ,因此 , 当 考 虚 极 大 化 时 
可 以 忽略 它 。 该 似 然 孙 数 不 便于 求 极 大 值 , 因为 集合 B. 涉及 从 群 c 的 总 结 
CN 十 No ) 选 取 NN 个 结果 yj. 二 1 的 许多 方式 。 不 过 坟 运 的 是 ,大 量 流行 的 计算 
机 软件 都 提供 了 用 于 估计 这 种 模型 的 条 件 logit 选项 。 所 有 未 知 参 数 的 协 方 差 矩 
阵 , 可 通过 对 数 似 然 海 赛 矩阵 的 道 得 以 估计 出 来 。 

举 男 一 个 例子 ,考察 泊 松 固定 效应 群 模型 , 它 设 定 : 

yi ~ PL Wie —a. exp(xXiB) 1], C 一 ] ,CC 

其 中 ,PL 表示 泊 松 分 布 ,而 xj. 不 包括 截 距 与 任何 群 不 变 回 归 元 。 这 是 一 般 的 泊 
松 模型 ,只 是 通常 条 件 均 值 exp(xj;.B ) 用 特定 群 固定 效应 a. 去 乘 。 对 于 这 种 特殊 
模型 ,一 系列 方法 包括 条 件 ML 与 中 心 化 ML 都 会 去 掉 人 参数 a.。 借 助 于 求解 估计 
方程 : 
eb (9 = 0 


1 


ee , 


而 得 到 6 参数 的 一 致 估计 。 其 中 ,Aj. 一 expG%B),F. 一 NN DyjoA 一 NN, 2， 
它们 都 是 群 均 值 。 对 于 更 详细 内 容 : ,参见 第 23. 7 节 在 面板 数据 情况 下 对 此 类 问题 
的 讨论 。 


24. 5.7 ” 整 群 数 据 其 他 万 落 


案 集 的 一 个 基本 特征 是 ,对 于 不 同 观测 值 出 现 相依 性 。 一 个 有 关 的 专题 是 空 

间 相 关 (Cspatial correlation)| 参见 安 塞 林 (Anselin，2001)、 李 明 罕 (lee, 2004) | ,其 
中 ,观测 单元 是 一 个 地 区 ,比如 州 ,相互 邻接 地 区 的 观测 值 可 能 是 相关 的 。 

: 为 了 考察 斜率 系数 与 截 距 , 就 要 推广 随机 效应 方法 。 这 是 下 一 节 分 层 线性 模 

型 (hierarchical linear models) 要 阐述 的 。 对 于 非 线 性 模型 ,问题 类 似 于 第 23 章 所 

述 的 面板 数据 内 容 。 

在 聚集 产生 群 内 相关 却 不 影响 估计 量 的 一 致 性 背景 下 ,运用 目 助 法 来 获得 和 群 
稳健 标准 误差 。 从 直观 上 看 ,人 们 应 对 群 c 采用 放 回 再 抽样 ,在 此 情况 下 ,我们 要 
求 满足 C 一 ce 的 小 整 群 。 针 对 第 2 次 自助 ,我 们 以 放 回 方式 采样 C 个 群 ,并 利用 这 
C 个 再 抽样 群 中 的 全 部 7 个 住户 去 估计 6, ,6 是 式 (24. 44) 的 解 。 于 是 ,人 们 通过 
将 通常 样本 方差 公式 应 用 于 0 ,…,0s ,估计 出 VL6 ], 其 中 ,B 表示 自助 复制 次 数 。 
注意 到 ,再 抽样 是 针对 整 群 而 不 是 住户 实施 的 ,因为 ,假定 整数 是 iid 的 ,而 存在 群 
内 相依 性 。 


24.6 分 层 线性 模型 


24. 5 节 将 随机 效应 模型 的 群 效应 作用 限制 成 为 回归 截 距 。 更 一 般 的 随机 效 
应 模型 ,还 会 允许 群 差异 体现 在 斜率 系数 上 。 体 现在 回归 系数 的 子 集 的 群 间 差 开 


<h 分 层 样 本 与 整 群 样本 


2 


杞 可 观测 的 群 特征 相 联 系 。 由 于 此 类 模型 包括 了 几 个 设 定 层次 ,所 以 称 为 分 层 模 
型 (hierarchical models ) 。 

许多 应 用 统计 学 科 中 关于 整 群 数 据 的 标准 框架 是 分 层 线性 模型 ,又 称 多 水 平 
线性 模型 " 14(multilevel linear models) .随机 系数 模型 .方差 成 分 模型 .混合 线性 模 
型 或 混合 效应 模型 (mixed effects models) 。 模 型 的 这 种 分 类 带 来 了 设 定 方面 的 更 
多 信息 。 我 们 以 对 分 组 个 体 群 模型 阐述 开始 讨论 。 该 种 模型 适合 于 短 面板 数据 情 
况 , 即 对 每 一 个 体 来 说 ,重复 测量 数据 出 现 聚 集 . 


24. 6. 1 模型 结构 


分 层 或 多 水 平 模型 是 能 用 于 带 有 瞬 套 结构 的 数据 的 一 类 模型 。 一 些 例子 包 
插 , 某 一 地 区 诸如 州 或 郡 的 个 体 ,或 者 是 某 一 个 组 织 单位 比如 学 校 或 社会 的 个 体 ， 
或 者 菜 个 家 硅 个 体 , 比 如 可 以 利用 的 有 双胞胎 数据 。 面 板 数 据 也 是 一 个 例子 ,这 里 
将 对 同一 个 个 体 的 重复 测量 值 解释 成 钥 入 个 体 的 观测 值 。 
我 们 以 线性 模型 : 
yi; = XB ;Tu (24. 49) 
开始 讨论 ,其 中 ,新 项 目 是 设 K 个 回归 元 系数 8B 随 组 (或 群 )7 而 变化 。 一 个 具体 例 
于 是 ,考虑 学 校内 学 生 数 据 。 于 是 ,yi 是 一 个 结果 测量 值 ,比如 第 ; 个 学 校 的 第 : 
个 学 生 的 测验 分 数 ,而 回归 元 比如 学 生 民 族 变 动 的 边际 效应 会 随 学 校 不 同 而 变化 。 
注意 到 ,我 们 使 用 的 标准 分 层 线性 模型 (HLM) 记 号 ,与 24. 5 节 所 用 的 那些 记号 相 
比 恰 好 相 友 ,其 中 ,表示 第 < 个 学 校 的 第 7 位 学 生 的 测验 分 数 。 
两 水 平分 层 线 性 模型 ,将 第 一 水 平 模型 (24. 49) 中 的 系数 设 定 成 由 一 个 随机 项 
与 第 二 水 平 变量 的 线性 函数 来 决定 ,这 里 的 第 二 水 平 变量 是 学 校 特征 。 以 纯 量 参 
数 Bs 开始 曾 述 , 即 KX1 维 向 量 参 数 B; 的 第 & 个 分 量 。 从 而 ,将 Bi 建 模 成 依赖 于 
学 校 特征 问 量 w 并 满足 : 
By —=Wsyetvs, k=1,.…,K (24. 50) 
的 模型 ,这 里 ,ws 对 第 j 个 学 校 取 值 ws ,ws 的 第 一 个 分 量 通常 为 常数 。 若 对 B 的 
所 有 天 个 成 分 车 放 , 则 有 : 


Bj WI 0 0 
:| 二 |0 0 
Kj 0) 0 Wk; 


或 用 明显 官 阵 记号 写成 : 


lj 


十 
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Bj;—= Wy TY, (24. 51) 

”模型 (24. 50) 是 一 种 灵活 形式 ,并 且 扶 和 许多 模型 作为 特殊 情况。 这 些 特殊 情 

饮 包 括 含 有 随机 稚 距 与 随机 斜率 的 模型 ,但 该 框架 还 允许 回归 系数 随 第 二 水 平 本 
观测 而 变化 。 模 型 范围 极为 广汉 ,正如 下 面 指出 的 那样 。 。 

当 Be 二 ys 时 ,第 上 个 第 一 水 平 系数 称 为 固定 系数 ,在 此 情况 下 ,系数 不 随 第 二 

水 平 回 归 元 或 不 可 观测 因素 而 变化 。 如 果 所 有 第 一 水 平 系数 都 是 同 定 的 ,那么 模 


[C1] 义 称 为 多 层 线性 模型 。 一 一 详 者 注 
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型 (24. 49) 简 化 成 yi; 二 xi7 十 wij ,在 此 情况 下 通过 估计 回归 就 合适 。 注 意 到 ,与 面 
板 背 景 下 经 济 计量 学 家 使 用 的 固定 效应 项 相 比 ,固定 系数 项 具有 截然 不 同 的 意义 。 

第 上 个 第 一 水 平 系数 称 为 非 随机 变化 系数 ,如 果 B 二 7。 那么 ,该 系数 是 学 校 
特征 的 一 个 线性 也 数 。 假 如 所 有 第 一 水 平 系 数 都 是 固定 的 ,只 是 截 距 是 非 随机 变 
化 的 , 则 模型 (24. 49) 简 化 成 yi 二 x 了 十 wj ,在 此 情况 下 ,通过 OLS 估计 回归 就 合 
这 。 注 意 到 ,与 面板 背景 下 经 济 计量 学 家 所 使 用 的 固定 效应 项 相 比 , 周 定 系数 项 具 
有 和 鹤 然 不 同 的 意义 。 

第 个 第 一 水 平 系数 成 为 非 随 机 变化 系数 ,如 果 B 二 wi ,那么 ,该 系数 是 学 
校 特征 的 一 个 线性 苑 数 。 假 如 所 有 第 一 水 平 系数 都 是 固定 的 ,只 是 截 距 是非 随机 
变化 得 , 则 模型 (24. 49) 简 化 成 yj 二 x$B8 十 wijxyi 十 ui; , 它 是 关于 个 体 特性 与 学 校 特 
征 结 采 的 一 个 标准 OLS 回归 ， 

第 上 个 第 一 水 平 系数 被 称 为 随机 变化 系数 ,如 果 Bi 二 7 十 vs 。 那 么 ,该 系数 
是 纯 随 机 的 ,并 是 不 随 学 校 特征 而 变化 。 倘 若 所 有 第 一 水 平 系 数 都 是 随机 变化 的 ， 
因而 局 二 7 十 w, 则 模型 是 方差 分 其 模型 或 随机 系数 模型 。 当 所 有 第 一 水 平 系数 都 
是 固定 的 ,只 是 截 中 是 随机 变化 的 ,模型 (24. 49) 简 化 成 yw 一 XiiG 十 zy 十 2 ,; 它 是 
一 个 随机 截 距 模 型。 

在 实际 应 用 中 , 某 些 第 一 水 平 系 数 既 是 非 随 机 变化 的 又 是 随机 变化 的 ,如 同一 
般 情况 下 的 式 (24. 49) 。 假 如 仅 有 第 一 水 平 截 距 遵从 一 般 模 型 (24. 49), 而 其 他 所 
有 第 一 水 平 系数 都 为 固定 的 , 则 模型 (24. 49) 简化 成 y;; 二 x B 十 Wijy 1 十 vj 十 ww;。 
这 是 通常 的 混合 回归 模型 ,误差 有 两 个 分 量 ,因此 ,误差 对 在 同一 个 学 校内 的 不 同 
个 体 来 说 是 相关 的 。 

HLM 框 染 能 被 推广 到 更 多 水 平 上 。 例 如 ,个 体 学 生 ( 下 标 人 可 以 被 由 入 学 校 (下 
标 站 ,学 校 被 髓 入 某 个 地 区 (下 标 &)。 于 是 ,三 个 水 平 HLM 在 第 一 水 平 上 将 学 生 结 
果 设 定 成 Vik 一 天 到 状 十 er ,其 中 参数 Tjk — AX;. 二 jx ? 同样 地 有 en 一 Wi 十 ws， o 

HLM 可 被 重新 写成 一 种 混合 线性 模型 ,因为 将 式 (24. 50) 代 入 式 (24. 49) 
得 到 

yi = CX; Wj) YT xs v; us; (24. 52) 


目标 是 佑 计 回 归 参 数 y ,误差 w 与 v; 的 方差 与 协 方 差 。 由 于 假定 误差 与 回归 元 独 
六 ,所 以 对 式 (24. 52) 的 混合 OLS 估计 得 出 7 的 一 致 参数 回归 。HLM 方法 运用 
了 更 有 效 的 佑 计量 ,这 些 佑 计量 利用 对 误差 4 与 Vv 的 方差 及 协 方差 所 做 的 假设 ，。 
在 最 简单 情况 下 ,被 假定 成 是 iid 的 ,服从 Wio,e ,而 vv 被 假定 成 iid 的 , 服 
从 NL0,T]。 于 是 ,模型 能 重新 写成 : 
Yi ~ AM [x j ,0 
， 局 一 人 WLWi7y , 工 | 
在 贝 叶 斯 背景 下 , 林 德 利和 史密斯 (Lindley and Smith,1972) 对 这 个 模型 做 出 了 时 
期 的 研究 ,其 中 ,x 被 称 为 超 参数 ,在 更 一 般 模 型 中 , 超 参 数 本 身 同样 依赖 于 更 高 水 
平 的 超 参数 。 人 参数 Yo ,可 通过 极 大 似 然 法 或 内 时 斯 方法 估计 出 来 。 作 为 一 种 
选择 方式 ,能 够 使 用 ML 方法 ,这 在 本 质 上 与 21.7 节 所 述 的 混合 线性 面板 数据 的 
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那 种 情况 一 样 。 布 雷 克 和 劳 登 布什 (Bryk and Raudenbush，1992，2002) 给 出 了 一 
个 完整 研究 。 


24. 6.2 面板 准 据 的 HLM 


HLM 文献 将 短 面板 解释 成 对 个 体 的 重复 测量 。 于 是 ,个 体 就 成 为 两 个 水 平 
HLM 的 第 二 水 平 , 而 在 上 一 节 里 ,个 体 则 是 第 一 水 平 。 

模型 (24. 28) 恋 成 ， 

yi = Xi (24. 53) 
比如 ,这 里 表示 第 ; 个 学 生 在 时 间 : 的 一 个 测量 结果 ,并且 诸如 所 学 特定 科目 的 
回归 元 变动 的 边际 效应 随 学 生 不 同 而 变化 。 纯 量 参数 B.; , 即 KX1 维 向 量 参 数 8 
的 第 & 个 元 素 ,被 建 模 成 依赖 于 个 体 特征 ws 向 量 , 这 里 对 wi 第 i 个 个 体 来 说 取 值 
为 Wei , 满足 : 
Bei = We Yi + wh (24. 54) 

特定 个 体 效应 模型 是 下 面 情况 的 一 种 特殊 情形 ;所 有 的 第 一 水 平 系数 是 同 定 
的 ,因而 Bi 二 Xi ,只 是 截 中 项 Bi; 会 随 个 体 不 同 而 变化 (第 二 水 平分 组 )。 

当 截 中 Bi; 不 存在 任何 模型 而 直接 估计 Bi; 时 ,就 是 特殊 个 体 固 定 效 应 模型 。 这 
是 满足 8 一 w47 的 非 随机 变化 系数 的 极端 情况 ,其 中 ,wu 表示 N X1 维 指示 变量 
问 量 ,当时 ,第 /个 分 量 等 于 1, 否则 等 于 0, 因 此,B; 二 Xi;。HLM 框架 并 不 是 
设计 成 适应 经 济 计量 学 家 所 称谓 的 固定 效应 模型 。 | 

当 截 距 B81; 是 一 个 随机 变化 系数 时 ,因而 Bi 二 Xi 十 v1;, 即 特定 个 体 随 机 效应 模 
型 。 很 明显 ,人们 能 设 定 出 更 具 一 般 性 的 随机 效应 模型 ,B 同样 依赖 于 回归 元 。 

正如 已 经 注意 到 的 ,HLM 是 一 种 混合 线性 模型 。 对 于 面板 数据 情况 , 式 
(24. 52) 的 类 似 形 式 是 : 

yi — Ki W,) yx vw 

对 第 2 章 的 随机 效应 模型 加 以 专门 研究 ,得 出 .yi — XYy 十 也 十 zs o 

HLM 框 染 在 面板 数据 方面 的 标准 应 用 是 增长 模型 ,其 中 ,结果 y,; 是 个 体 智力 
或 映 高 , 蕊 是 年 龄 的 消 数 ,并 且 人 允许 年 龄 的 边际 效应 随 个 体 不 同 而 变化 。 这 里 除 允 
许 截 距 随 个 体 不 同 而 变化 之 外 ,还 允许 斜率 系数 随 个 体 不 同 而 变化 。 


24. 7 聚集 例子 ;越南 保健 支出 


在 本 节 ,我 们 关注 存在 聚集 时 的 估计 ,因为 这 在 微观 经 济 计量 学 研究 中 是 调查 
数据 方面 最 为 普通 的 复杂 情况 。 可 以 运用 24. 5 节 的 方法 。 

不 论 是 线性 回归 模型 还 是 非 线性 回归 模型 ,都 建立 在 来 自 世 界 银行 关于 越南 
生活 标准 调查 (VLSS)1997 一 1998 年 个 体 水 平 及 住户 水 平 数据 的 基础 上 。 一 系列 
专项 的 详细 信息 调查 收集 源 自 大 致 6 000 个 住户 的 27 700 个 个 体 ,住房 分 布 在 大 


” 约 194 个 社区 。 下 文 将 “社区 ”处 理 成 群 或 组 ,并 假定 观测 结果 与 所 处 社区 是 相关 


的 。 住 户 样本 平均 群 容量 大 约 为 26, 最 大 群 容量 是 39 ,而 最 小 群 容量 为 1。 为 了 盖 
朋 线 性 群 模型 与 非 线 性 群 模型 ,对 三 个 结果 加 以 建 模 。 : 


微观 经 济 计 重 学 

第 一 ,我 们 考察 住户 保健 年 度 总 文 出 的 线性 回 岂 模型 (LNEXP12M) ,对 于 拥 
有 正 支 出 的 住户 ,作为 住户 总 支出 (HHEXP) (对 数 ) 函数 , 它 控制 几 个 标准 社会 人 
口 统计 变量 , 即 保健 支出 的 “恩格尔 曲线” 类型。 关注 内 容 是 住户 总 支出 的 系数 , 它 
是 保健 需求 关于 住户 收入 强 性 的 估计 值 。 

第 二 ,我 们 运用 个 体 响 应 信息 ,估计 保健 类 型 的 整 群 计 数 模 型 ,以 此 解释 汇总 
私人 保健 支出 的 高 比例 。 在 对 这 些 结果 进行 建 模 时 ,我 们 控制 个 体 的 最 近 健 康 状 
况 .家 庭 收 入 .健康 保险 状态 以 及 各 种 人 口 统 计 变 量 , 比 如 年 龄 .婚姻 状况 .户主 的 
受 教 育 水 平 。 健 康 状况 被 限制 在 调 查 期 间 维持 的 ILLNESS 或 INJURY .生病 期 间 
还 有 受 限 活动 天 数 。 关 注 的 重要 系数 再 次 是 收入 与 保险 状态 变量 的 系数 。 

表 24. 3 汇集 了 这 些 例子 所 用 的 变量 定义 与 概括 统计 量 。 


表 24.3 越南 保健 例子 所 用 数据 描述 


住户 数据 定义 均值 标准 差 
LNEXP12M 12 个 月 的 全 部 住户 保健 支出 ，6. 31 1. 59 
AGE 户主 年 龄 48. 01 13. 77 
SEX 当 户 主 为 女性 则 取 1 .否则 0 0. 27 0. 44 
HHSIZE 全 部 住户 的 人 口 数 4.73 1. 96 
URBAN 当 住 户 为 城市 的 则 取 1 ,否则 0 0. 29 0. 45 
EDUC 户主 受 教 育 年限 7. 09 4. 41 
HHEXP 全 部 住户 名 义 支 出 (1998 年 越南 盾 ) 15 273 13 020 
个 体 数 据 
PHARYVIS 直接 去 药店 的 次 数 0. 51 1. 3] 
LNMEDEXP(>>0) ”那些 有 正 支 出 住户 的 log (总 医疗 文 出 ) 2. 14 1. 08 
AGE 年 龄 29. 7 9. 67 
SEX 和 若 回 答 者 为 男性 , 则 等 于 1 0. 51 0. 49 
MARRIED) 若 为 已 婚 者 , 则 等 于 1 0. 40 0. 49 
上 DLL 获得 的 毕业 文 乌 水 平 3. 38 1.94 
ILLNESS 在 过 去 12 个 月 里 没有 得 病 数 0. 62 0. 90 
INJURY 苟 在 调查 期 间 受 伤 , 则 等 于 1 0. 62 0. 90 
ILILDAYS 得 病 天 数 2. 80 5. 45 
ACTDAYS 受 限 制 活动 天 数 0. 06 1. 11 
INSURANCE 若 回 符 者 有 医疗 保险 ,， 则 等 于 1 0. 16 0. 37 
MEDEXP( >0) 以 正 医疗 文 出 为 条 件 的 医疗 文 出 21.04 208 
MEDEXP 医疗 支出 (1998 越南 盾 ) 6.13 112.75 


这 两 种 情况 的 核心 问题 如 下 :聚集 对 弹性 估计 影响 是 多 少 ? 当 运用 各 种 不 同 
的 假设 、 模 型 以 及 估计 量 时 ,弹性 及 其 影响 会 宪 梓 下 化 ? 


绍 采 与 讨论 


表 24. 4 给 出 了 OLS 回归 、HC 上 比率 .固定 效应 以 及 随机 效应 公 却 表述 绩 末 。 
与 来 自 运用 不 考虑 聚集 的 异 方 益 一 一 致 方差 估计 量 所 得 到 的 标准 误差 结果 相 比 ， 
相对 变化 并 不 太 。 不 过 , 当 使 用 聚集 稳健 方差 估计 量 (24. 34) 时 ,其 标准 评 老 出 现 
了 相当 大 的 变动 。 支 出 弹性 的 : 比率 从 16. 01 下降 到 12. 68。 所 有 比率 都 变 得 
更 小 了 ,而 且 变 量 SEX 与 HHSIZE 的 下 降 到 1. 96 以 下 。 正 如 人 们 所 料 , 这 些 结 才 
显示 ,忽略 群 间 相关 性 引发 了 OLS 1 比率 增 大 。 
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微观 经 济 计 量 学 

对 于 所 有 固定 效应 都 相等 的 零 假 设 ,其 下 检验 拒绝 零 假设 。 固 定 效应 结果 基 
本 上 具有 相同 的 模型 ,但 是 注意 到 ,t 比率 甚至 更 小 一 些 。 现 在 ,收入 弹性 的 点 估计 
是 0. 60, 与 之 相 比 ,OLS 结果 中 的 点 估计 则 是 0. 67。 不 过 ,整体 而 言 ,对 不 同 变 量 
作用 方面 的 推断 并 无 显著 改变 。 

关于 截 距 上 随机 变异 为 0 的 零 假 设 ,其 X (1) 得 分 检验 建立 在 式 (24. 43) 的 基 
础 上 ,这 表明 RE 模型 在 约束 回归 方面 得 到 了 改进 。 不 过 ,估计 模型 也 没有 导致 评 
价 不 同 变 更 作用 时 出 现 显 著 变 化 。 正 如 入 们 所 预期 的 ,在 FGLS 栏目 与 RE(GLS) 
栏目 下 阐述 的 结果 极为 相似 。 这 种 较 小 差异 基本 上 归 因 于 在 变换 时 运用 了 不 同 的 
值 。FGLS 估计 建立 在 6=0. 12 的 基础 上 ,该 6 值 是 通过 对 利用 最 小 二 乘 残 差 的 
100 个 估计 值 再 对 所 获得 的 o 的 100 个 估计 值 求 平均 值 而 得 出 的 。 

FE 与 RE 结果 上 的 绝对 差异 相对 很 小 。 非 正式 比较 没有 显示 ,FE 与 RE 公 
式 会 产生 本 质 上 不 同 的 结果 ;不 过 , 豪 斯 曼 检 验 表 明 ,两 种 估计 集合 之 间 存 在 统计 
上 的 显著 差异 。 

总 之 ,这 些 结果 表明 ,更 应 该 对 群 间 相 关 性 做 出 某 种 调整 ,以 及 到 底 怎么 做 才 
能 拥有 对 结果 相对 小 的 影响 。 

其 次 ,我们 考察 利用 泊 松 模型 计数 变量 的 结果 ,这 里 的 计数 是 指 个 体 到 药店 的 
次 数 。 这 是 一 个 有 意思 的 变量 ,因为 越南 医疗 支出 的 高 比例 通过 购买 与 使 用 在 药 
店 直 接 购买 的 非处方药 而 采取 自述 医疗 方式 。 假 定 这 类 保健 形式 比 在 专业 人 员 指 
导 下 所 获得 的 质量 更 低 。 在 越南 ,合适 个 体 通常 为 高 收入 政府 人 员 与 私人 部 分 雇 
主 ,他 们 有 能 力 购 买 健康 保险 ,享受 在 政府 医院 就 医 , 还 会 获得 指定 医疗 。 从 表 
24. 3 发 现 , 样 本 个 体 的 16%6 拥 有 此 类 健康 保险 。 

表 24. 5 显示 PHARYVIS 的 观测 频数 分 布 ,个 体 中 大 约 26% 在 调查 期 间 有 不 
止 一 次 的 访问 ,并 且 个 体 中 大 约 95%% 有 总 数 为 3 次 或 更 少 次 数 的 访问 。 

表 24.5 越南 保健 :去 药店 次 数 频 率 
次 数 O ] 2 3 4 5 6 f 8 9 10 二 


PHARVIS 20639 3827 1716 776 359 174 04 43 16 4 115 
PHARVIS 0.744 0.137 0.062 0.028 0.013 0.006 0.002 0.001 0.000 0.000 0.004 
(分 数 ) 


表 24.6 阐述 了 让 松 回 归 的 几 种 变形 结果 ,类 似 于 线性 回归 的 表 24. 4 中 的 那 
些 结 果 。 第 一 栏 给 出 了 泊 松 MLE 估计 ,而 普通 未 调整 1 比率 列 在 第 二 栏 。 接 下 来 
的 栏 表 示 建 立 在 异 方差 性 一 一 致 方差 估计 基础 上 的 稳健 上 上 比率。 这些 都 更 小 一 
些 , 在 某 些 情况 下 ,与 未 调整 的 那些 相 比 ,超过 2 倍 ,第 四 栏 给 出 调整 整 群 的 建立 在 
利用 式 (24. 45) 计 算出 的 方差 基础 上 的 1 比率。 第 四 栏 远 远 小 于 前 面 两 栏 的 事实 
证 实 了 ,确实 存在 群 间 相关 性 。 平 均 整 群 容量 大 于 140 个 观测 值 ;因此 ,其 至 群 间 
相关 性 程度 不 大 ,可 能 使 1 比率 大 大 增 大 ,而 且 结 果 证 实 了 这 一 点 。 

其 次 ,我 们 考察 利用 FE 与 RE 模型 对 群 间 相关 性 进行 建 模 。FE 模型 可 利用 
条 件 MLE 加 以 估计 。 省 略 那些 群 间 变 异 并 不 充分 的 群 。 得 到 的 估计 系数 远 远 不 
同 于 通过 注 松 MLE 估计 所 获得 的 结论。 注意 到 ,InCHHEXP) 的 系数 从 显著 正 的 
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转变 成 显著 人 负 的 。 这 意味 着 ,最 初回 归 建 议 去 药店 次 数 是 一 种 正 态 商品 ,但 FE 信 
计 建 议 , 它 是 一 种 劣 等 商品 :也 就 是 说 , 当 收 入 提高 时 ,个 体 避 人 免 这 种 日 我 医疗 形 
式 。 有 理由 将 此 作为 固定 效应 ,捕获 那些 与 观测 结果 相关 的 省 略 变量 的 影响 。 省 
咯 变 量 可 能 是 对 社区 居民 来 说 可 以 利用 的 为 一 种 医疗 服务 的 数量 与 质量 。 这 些 都 
可 能 出 现 变 化 ,极其 依赖 于 社区 的 地 理 区 位 与 经 济 状况 。 


表 24.6 越南 保健 :去 药店 次 数 的 RE 模型 与 FE 模型 


注 松 寞 方差 群 国定 效应 随机 效应 

模型 稳健 的 ”稳健 的 注 松 泪 松 
变量 系数 a 上 i 系数 [| 系数 于 
CONS 一 1.637 35.78 18.81 12.25 一 一 1.318 19.41 
LNHHEXP 0. 78 5.68 3.08 1.90 一 0.114 6.01 一 0.095 4. 95 
INSURANCE 一 0.245 9.57 5.68 429 一 0.163 6.17 一 0.178 6. 44 
SEX 0.084 4.96 2.76 2.73 0.098 5.75 0.099 5.71 
AGE 0.024 2.38 1.27 1. 06 0.03 0.32 0.005 0. 55 
MARRIED 0.124 5.92 2.96 2.78 0.164 7.59 0.158 7. 38 
ILLDAYS 0.042 40.00 14.91 12.91 0.046 40.14 0.046 40.18 
ACTADYS 0.008 -1.71 0.43 0.45 0.025 4.53 0.024 4. 35 
INJURY 0.171 2.30 0.84 0.85 0.144 1.80 0.143 1. 80 
ILLNESS 0.562 87.15 24.60 21.8] 0.584 73.45 0.585 74.16 
EDUC —0.052 11.10 6.47 3.92 0.24 4.18 一 0.026 4. 61 
—lnL 25 281 22 446 23 419 
N 27 765 27 671 27 765 


表 24. 6 的 最 后 两 列 给 出 了 建立 在 随机 效应 公式 基础 上 的 缮 灯 。 这 里 假定 , 泊 
松 分布 的 截 距 随 不 同 群 而 随机 变化 ,每 一 个 群 都 从 共同 单 变量 分 布 尤其 是 具有 单 
位 均值 的 伽 玛 分 布 中 “采样 ?其 截 距 。 这 种 方式 引 人 注 目 , 其 原因 是 它 不 要 求 任 何 
条 件 。 豪 斯 曼 等 人 (Hausman et al. ，1984) 人 研究 了 一 种 截 距 服从 使 玛 分 布 的 RE 
泊 松 面板 模型 ,该 模型 具有 解释 似 然 蚊 数 , 这 可 以 适合 于 整 群 效 据 的 情形 。 对 RE 
模型 估计 得 到 的 结果 在 性 质 上 类 似 于 对 FE 模型 估计 所 获得 的 。 不 过 ,重要 的 收 
和 变量 估计 系数 是 由 在 简单 泊 松 假设 下 所 获得 的 估计 经 过 一 番 变 动 得 到 的 。 

该 例子 表明 , 群 间 相关 性 可 能 产生 影响 , 它 不 仅 对 效率 有 影 啊 ,而 且 对 估计 但 
自身 也 有 影 啊 。 


24.8 复杂 调 奉 


前 面 几 节 对 分 层 、 加 权 以 及 仅 有 和 集群 内 容 进 行 了 讨论 。 本 节 关注 运用 分 层 多 
阶段 整 群 抽样 设计 的 复杂 调查 。 此 类 调查 的 目的 是 阐述 当 总 体 参数 可 能 随 不 同 层 
而 变化 时 对 总 体 的 概括 。 于 是 ,就 要 使 用 加 权 估计 量 ,并 将 其 看 成 普查 系数 的 一 种 
估计 。 一 旦 控制 了 可 能 比 24. 5 节 更 为 复杂 的 集群 ,目标 是 一 致 地 估计 出 加 权 估计 
量 的 方差 
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24. 8.1 复杂 调查 的 方 尖 信 计 


我 们 考察 下 述 设置 结构 。 样 本 中 的 第 i 个 观测 值 是 位 于 s 层 第 c 个 群 内 的 ] 
住户 。 例 如 , 因 变 量 用 yw。 表示 ,尽管 更 正式 地 讲 , 可 将 观测 什 (s,c,y) 重 新 表述 成 
观测 值 (%,c, ,六 )。 数 据 是 (ye ,Xo ,ws ) ,其 中 ,rw 是 一 个 反比 例 于 选取 样本 观测 
值 概率 的 样本 权 数 。 下 标 利 用 了 非 汇总 水 平 加 以 排序 ,与 24. 5 节 中 的 记号 相反 。 

二 级 抽样 [11(two-stage) 或 多 级 抽样 和 ‘<1(multistage sampling) 用 于 层 内 ,所 
选取 的 住户 作为 至 少 两 个 序 贯 采样 的 结果 。 首 先 ,该 层 内 的 所 有 PSU 的 子 集 是 随 
机 抽取 的 。 其 次 ,对 选取 PSU 中 的 所 有 住户 抽取 子 集 , 其 中 允许 出 现 整 群 抽样 。 
进一步 地 ,还 可 能 从 SSU 内 采样 ， 

线性 统计 量 方 差 

起 点 是 考察 线性 统计 量 的 方差 估计 ,这 里 的 线性 统计 量 是 关于 层 、PSU 以 及 
住户 的 求 和 : 


S Ss CC 
< ~ 
tO Uv TT tt sr 
=] }. 4 二 


其 中 ,wu 表示 PSU 之 内 的 全 体 ， 因而 
Hs 一 > Us 
下 面 将 给 出 wo 的 例子 ,诸如 加 权 均 值 与 加 权 回 归 ,w 的 方才 无 : 


Vjuj|= DPV | 一 > co 


若 我 们 假定 凡 关于 层 是 独立 的 且 关 于 PSU 是 iid 的 ,具有 共同 方差 中 。 已 知 wu 关于 
c 为 iid 的 ,可 以 利用 于 的 通常 无 偏方 差 估计 值 ,所 以 6 一 (C. 一 1) (uw 一 4.)?。 
让 此 可 得 


bu 
| 


CC 


局 4 ， 
VLzZ | = D3 >) (we — i )" (24. 55) 
= | ~ * “二 1 





其 中 ,i 一 C.! 3) wu 表示 PSU 全 体 的 层 平 均值 。 
这 个 估计 量 考虑 到 了 内 部 的 集群 ,因为 


N., 
一 PS Ws — DDD, — RH,) (Ug — ,) 
=! j-! 


第 一 个 和 式 是 在 SRS 条 件 下 对 方差 的 页 献 。 第 二 个 和 式 在 整 群 抽样 下 将 是 正 的 ， 
从 而 引起 较 大 方差 。 若 不 对 抽样 特性 做 出 假设 ,就 不 会 产生 层 内 聚集 形式 。 例 如 ， 
式 (24.55) 给 出 正确 的 标准 误差 ,即使 存在 三 级 抽样 ,而 且 针 对 SSU 有 进一步 二 次 


[ 12] 又 称 为 二 阶 搬 样 。 -一 详 者 注 
[C2] 又 称 为 多 阶 抽 样 。，“ 译 首 汪 
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抽样 。 

估计 量 式 (24. 55) 确 实 要 求 ,至 少 两 个 PSU 是 从 每 一 个 层 抽 取 的 。 当 仅 有 一 
个 PSU 被 采样 时 , 则 一 种 可 能 性 是 要 合并 一 些 层 ,包括 单个 PSU 进入 另 一 个 层 
中 ,将 此 层 看 成 类 似 于 一 个 合理 的 先 验 。 一 种 可 行情 况 是 ,倘若 C, 宇 2, 即 每 层 至 少 
存在 两 个 PSBU。 由 于 不 同 层 出 现 各 不 相同 的 均值 , 当 引 入 向 上 偏 倚 时 ,这 将 导致 
对 Vi wj 的 高 估 。51) 

在 实际 应 用 中 ,PSU 都 是 以 不 放 回 方式 抽样 的 ,因此 ,xx 中 存在 某 种 相依 性 。 
从 而 ,类 似 于 24. 2. 3 节 情 况 ， 式 (24. 55) 高 估 了 VLuj。 为 此 ,人 们 提出 了 更 复杂 的 
公式 。 

加 权 均 值 的 方差 

总 体 均 值 可 通过 ye 的 样本 加 权 总 数 ( 比 如 说 六 ) 与 样本 权 数 之 和 (比如 说 姜 ) 
的 比值 来 加 以 估计 。 于 是 : 


mw = = DD Dy DD 


xs 一 (一 | 了 一 5 一 ] (一 ] 7 一 ] 


当 将 样本 权 数 看 成 已 知 的 , 则 有 更 简单 的 形式 ， 


其 中 ,wo 二 tw / 包 , 利 用 满足 us 一 zy 的 式 (24. 55) ,就 可 应 用 V [yw]。 

厂 将 样本 权 数 处 理 成 未 知 的 , 则 运用 德尔 塔 方法 或 线性 化 方法 得 出 :V[3/ 包 |] 
作为 VL]、V[ 忆 ] .Cov[L5y, 思 j 的 一 种 函数 。 前 面 这 两 个 量 能 利用 满足 uj 一 ws ys 
且 wj 二 wj; 的 式 (24. 55) 估 计 出 来 。 第 三 个 量 可 通过 用 (ws 一 埃 ) (wv 一 zw) 代替 式 
(24. 55) 中 的 Cu 一 未) 而 得 到 估计 ， 其 中 » Use Tse Y sej 日 Us Us o 这 是 比值 估 
计量 的 一 个 例子 。 

对 于 非 线 性 统 讨 量 , 诸 如 这 些 比 值 估 计 , 文 献 已 经 提出 了 基于 刀 切 法 (jack- 
knife) 或 平衡 重复 复制 。 申 于 非 线性 原因 ,方差 估计 不 再 是 无 偏 的 ,但 可 以 证 明 , 当 
层 数 S 一 oo 时 ,人 它 是 一 致 的 | 参见 克 鲁 斯 和 拉 奥 (Krewski and Rao, 1981)]。 沃 尔 
特 (Wolter，1985) 对 S 固定 且 汪 Ns 一 oo 时 的 某 些 结果 进行 了 总 结 。 人 们 还 能 
实施 目 助 法 ,尽管 运用 时 需要 小 心 谨慎 。 参 见 拉 奥 和 匡 建 福 (Rao and Wu，1988)， 
以 及 绍 和 图 (Shao and Tu，1995) 。 

加 权 最 小 二 乘 估 计量 方差 

由 24. 3 节 知 ,普查 回归 系数 的 加 权 回 妇 估 计 值 Bw 是 


之 


并 


TO Recs (ys 一 xu Bw)= 0 


| 


i 
Me 


1 


【1] 对 于 CPS, 这 里 的 方法 并 不 能 直接 应 用 ,因为 许多 层 仪 有 一 个 PSU ,而 就 其 他 层 而 言 ,只 有 一 个 
PSU 被 收集 。 不 过 ,各 种 伪 层 可 以 建立 起 来 ,并 运用 一 些 从 伪 层 中 重复 抽取 PSU 的 复制 方法 。 参见 美 国人 
口 普 查 局 (2002)。 一 - 一 译 者 注 
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的 解 。 经 过 一 些 通常 代数 运算 ,得 到 : 


CN. 


= (PDD) DD Dw 区 


这 得 到 了 三 明治 形式 方差 VL 有 二 A 'BA ' ,其 中 ,B 表示 第 二 个 三 重 求 和 的 方差 ， 
这 能 利用 满足 wj 二 ws xu (yo 一 XijBw ) 的 式 (24. 55) 估 计 出 来 。 

加 权 m 估计 量 的 方差 

一 种 相当 一 般 的 框架 考察 加 权 m 估计 量 gw , 它 是 


SG CC 全， 
2 > > ， Usey hy ?A ,Ow ) 一 0 


的 解 。 例 子 包 括 , 线 性 回归 hyj 二 x (yi 一 %6B) ,以 及 拟 极 大 似 然 hi 二 9 1nf (yj | 
Xi ,0)/90, 

一 旦 假定 8 有 一 致 估计 ,这 要 求 ELhCy re ,0)j 二 0, 我 们 能 使 用 估计 方程 的 
通常 一 阶 泰勒 级 数 表达 式 , 得 到 : 


~ dd / 
VN(Ow 一 09) >NMN[0,A 'BA’!] 





其 中 : 
S CG AN, jh 
A=plimN >) 2 Dw Te 
s—1 r=:] j=1 ( 
与 ; 
S C, N, N 四 
B = plim NT >) > > > wiwhl ys ,x 10) hy spt 0) 
s=] c=1 j=] 上 =!1 ‘ 


其 中 ,假定 B 的 表达 式 与 hw 在 层 与 整 群 上 均 是 独立 的 ,但 允许 在 屋内 出 现 相依 性 ，。 
对 A 的 估计 可 直接 获得 。 对 于 B 来 说 ,运用 满足 uj 二 wo hw 的 式 (24. 55) ,得 到 : 


其 中 ,有 一 局 ro ,Xo 0) ,z=C0. Dz,. 

内 生 分 层 

左 方 (Sakata,1998) 将 这 些 结果 推广 到 内 生 抽 样 。 他 采用 了 普查 参数 方法 ,并 
给 出 了 在 假定 层 数 目 S$ 一 ce 时 的 渐 近 理论 。 其 结果 与 上 一 节 讨 论 的 那些 结果 
一 样 。 


24.9 应 用 研究 


在 微观 经 济 计量 学 研究 中 ,采用 绩 构 方法 最 为 普 过 。 倘 乔 不 和 存在 内 生 分 层 , 则 
可 使 用 加 权 估 计量 。 如 有 果 存 在 肾 集 ,主要 关注 内 容 是 获得 正确 的 标准 误差 。 当 整 
群 效 应 是 随机 的 时 候 , 佑 计 中 忽略 聚集 的 有 效 性 一 般 损 失 很 少 。 一 些 软件 包 可 能 
拥有 整 群 稳健 标准 误差 选项 ,不 要 与 异 方差 性 稳健 选项 相 混 消 ,假如 整 群 效应 是 随 
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机 的 ,并 且 存 在 众多 群 , 则 运用 整 群 稳健 标准 误差 是 适宜 的 。 倘 若 在 CSFE 情况 
下 ,存在 并 不 太 多 的 群 , 则 可 利用 OLS 实施 CSRE 与 CSFE 模型 。 否 则 ,使 用 面板 
数据 模块 ,如 果 该 模块 支持 非 平 衡 面 板 。 对 于 面板 数据 来 说 , 非 经 济 计 量 学 领域 的 
大 多 数 人 研究 者 对 采用 随机 效应 方法 满意 ,可 是 为 了 一 致 估计 ,可 能 必须 采用 固定 效 
应 方法 。 

石 来 用 描述 性 方法 ,并 且 参 数 随 不 同 屋 而 变化 , 则 必须 进行 加 权 。 在 最 小 二 乘 
法 内 部 运用 加 权 选 项 ,但 它 必须 与 整 群 稳健 标准 误差 选项 相 结 合 。 一 些 软 件 包 具 
有 调整 估计 模块 ,该 模块 利用 24. 6 节 方 法 获得 整 群 标准 误差 。 软 件 包 SUDAAN 
能 执行 本 章 中 的 线性 回归 模型 与 重要 的 非 线 性 回归 模型 。 


24. 10 “文献 注释 


24.2 -24.3 抽 梓 调查 文献 极为 丰富 。 抽 样 调查 方面 的 经 典 参 考 书包 括 基 什 
(和 Ish，1965) 、 科 克 伦 CCochran，1977 ,1953 年 第 1 版 )。 斯 金 纳 (Skinner，1989) 
给 出 了 一 个 有 用 的 综述 , 格 罗 夫 斯 (Groves,1989) 提 供 了 一 种 相对 非 技术 性 研究 ， 
阐述 社会 科学 进行 调查 的 众多 方法 ,以 及 产生 的 许多 有 用 的 实际 问题 。 为 了 完整 
起 风 ,我们 包含 了 某 些 这 类 抽样 调查 文献 ,尽管 经 济 计量 学 研究 很 少 运 用 24. 8 节 
的 方法 。 除 了 著名 的 帕 德 尼 (Pudney，1989) . 迪 顿 (Deaton，1997) 书 中 的 一 些 音 
节 以 及 乌拉 和 布 罗 伊 宁 (Ullah and Breuning，1998) 的 书 之 外 ,还 有 少数 的 经 济 计 
量 笠 文 献 。 

24.4 ”理论 经 济 计量 学 文献 的 主要 焦点 是 控制 内 生 分 层 。 这 方面 的 文献 具有 
挑战 性 ,我 们 只 提供 一 个 概述 。 详 细 内 容 参 见 雨 官 (Amemiya，1985), 他 提供 了 许 
多 文献 ,其 中 包括 曼 斯 基 和 莱 尔 曼 (Manski and Lerman，1977) 的 离散 选择 模型 ， 
以 及 碗 斯 曼 和 怀 斯 (Hausman and Wise，1979) 的 样本 选择 模型 。 尽 管 简单 如 权 舍 
计量 无 效 , 但 一 般 地 讲 , 它 是 适宜 的 。 类 伯 斯 和 兰 开 斯 特 (Imbens and Lancaster， 
1996) 曾 述 了 在 已 知 条 件 密度 下 ,实施 完全 有 效 估 计量 的 实用 方法 。 

24.5 对 于 微观 经 济 计量 学 应 用 来 说 ,控制 聚集 是 极为 重要 的 。 克 勒 克 
(Kloek，1981 ) 与 莫 尔 顿 (Moulton，1986，1990) 的 研究 工作 是 促使 经 济 计量 学 家 
改变 此 问题 的 一 个 关键 。 戴 维 斯 (Davis，2002) 给 出 了 多 重 方式 误差 成 分 方法 的 一 
种 一 般 性 人 研究。 格 劳 巴 德 和 科恩 (Graubard and Korn，1994) 曾 提出 整 群 数据 线性 
回归 分 析 的 一 个 有 益 讨论 。 他 们 既 关 注 癌 定 效应 模型 ,又 考虑 随机 效应 模型 ,强调 
了 使 随机 效应 模型 成 为 有 效 的 假设 必须 被 满足 。 绢 德 格 斯 特等 人 (Pendergast et 
al. ，1996) 给 出 分 析 整 群 二 值 数据 方法 的 广泛 综述 。 由 于 式 (23. 34) 右 边 的 中 间 项 
涉及 对 整 群 数目 求 均 值 ,这 种 估计 的 准确 性 依赖 于 整 群 数 日 。 当 群 数目 很 小 时 , 利 
用 整 群 稳健 方差 矩阵 的 结果 仍 是 一 个 值得 探索 的 专题 [唐纳德 和 了 肯 (Donald and 
Lang，2001); 安 格 里 斯 特 和 拉 维 (Angrist and Lavy，2002) |。 全 德里 奇 给 出 了 一 
个 综述 (Wooldridge，2003)。 

24.6 社会 科学 中 三 沁 运 用 分 层 线性 模型 。 布 雷 殉 和 劳 登 布 什 (Bryk and 
Raudenbush，2002) 既 从 似 然 观点 又 从 贝 叶 斯 观点 ,给 出 一 种 绿 合 涵盖 二 值 结果 、 
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有 序 结果 计数 结果 以 及 多 项 式 结果 的 论述 。 

24.7 世界 银行 对 发 展 中 经 济 实施 了 各 种 生活 水 平 调查 , 迪 顿 (Deaton,， 
1997) 运 用 来 目 世界 银行 的 整 群 样本 数据 讨论 了 一 系列 建 模型 问题 。 

24.8 许多 标准 统计 软件 包 比 如 STATA 与 SUDAAN ,针对 横 截 面 数 据 与 面 
板 数据 ,提供 了 线性 和 非 线 性 模型 中 的 固定 效应 公式 以 及 随机 效应 公式 。 


习 题 


24-1 (a) 验证 由 式 (24. 25) 给 出 的 .表达 式 ， 

(b) 证 明 CSRE 模型 的 估计 量 8 与 6 具有 一 致 性 。 

(c) 考察 平衡 整 群 CSRE 模型 的 标准 误差 偏 们 .证 明 在 此 情况 下 ， 
E[ D5). 22 J=o CN—K(+p(m—1))]. 

24-2 [改编 自 格 林 沃 尔 德 (Greenwald，1983) 。] 考 察 线性 回归 模型 y 一 
XGO 二 u, 其 中 ,E[uj 一 0, 并且 上 [Luo =cQ: 一 Q。 利 用 OLS 估计 量 B= 
(XX) 一 XYy 的 标准 结果 (参见 4. 4 节 ) ,我们 能 获得 VL 态 的 正确 表达 式 ,因为 Vz= 
(XX) 1!X QAX) ICXX) ,VXX) 1! ,GOKINH,G =ii(N—K) 是 
无 效 的 。 

(a) 证 明 Vi 的 伍 傈 由 B= 二 Bi 十 B, 给 出 ,其 中 ,B 一 (XXX)-IX CR 一 到 天 义 
(XX) 1!, 而 Bl 一 (N 一 K)-!tr{B; (XX))(X'X) !。( 格 林 沃 尔 德 将 Bs 称 为 “直接 
偏 倍 ”.) 

(b) 对 于 特殊 情况 XX 二 Ix ,计算 两 项 。 证 明 当 N 一 oo 时 ,B 一 B;，。 

24 -3 考察 OLS 整 群 稳健 方差 估计 量 公 式 (24. 33) 。 假 定 存在 两 个 水 平 聚 
集 。 具 体 地 讲 ,在 本 章 实 证 例子 背景 下 , 育 集 能 在 家 庭 与 社区 水 平 上 出 现 , 如 果 来 
自 相 同 社区 家 庭 的 多 位 成 员 都 在 调查 之 中 。 当 数据 有 两 种 水 平 聚 集 时 ,该 公式 将 
怎样 进行 修改 ? 

24 -4 对 于 这 个 习题 ,运用 VLSMS 数据 的 50% 样 本 。 当 实验 者 至 少 有 一 次 
去 药店 (PHARVIS) 时 ,定义 y 王 1, 否则 定义 y 二 0。 本 题 假定 可 以 运用 处 理 集 群 的 
程序 。 

(a) 使 用 的 解释 变量 与 24. 7 节 泊 松 模 型 中 的 那些 一 样 , 既 用 到 方差 标准 估计 
量 , 又 用 到 方差 稳健 三 明治 佑 计量 ,通过 极 大 似 然 法 对 二 值 logit 模型 加 以 估计 。 

(b) 利用 整 群 稳健 标准 误差 选项 ,重新 对 (a) 部 分 设 定 进行 估计 。 解 释 (a) 部 
分 与 (b) 部 分 的 稳健 标准 误差 之 间 的 差异 。 

(c) 运用 “社区 ”作为 整 群 标志 符 。 用 整 群 固定 效应 与 整 群 随机 效应 设 定 , 重 
新 估计 logit 模型 。 对 LNHHEXP 与 INSURANCE 的 系数 估计 及 标准 误差 进行 
比较 。 这 两 个 变量 的 显著 性 结论 会 受到 数据 聚集 影响 吗 ? 
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25.1 5 引 论 


处 理 评估 专题 涉及 干预 对 关注 结果 的 影响 进行 测算 ,对 干预 和 结果 类 型 可 以 
宽泛 地 加 以 定义 ,以 便 应 用 于 众多 不 同 背 景 的 内 容 上 。 处 理 评估 方法 及 其 某 些 术 
语 均 源 自 医学 ,其 中 ,干预 经 常 意 指 采 用 的 处 理 体 系 。 因 此 ,人 们 可 能 对 测量 与 某 
一 基准 一 一 例如 没有 处 理 或 不 同 处 理 一 一 有 关 的 处 理 响 应 感 兴 趣 。 在 经 济 应 用 
中 ,处 理 与 干预 第 常 意 指 同 一 个 含义 。 

在 经 济 背 景 下 ,处理 的 例子 包括 劳动 力 培训 项 目 注册 、 成 为 贸易 联盟 的 成 员 、 
”接收 来 自 社 会 项 目的 调动 .接收 来 自 社 会 项 目 制度 方面 的 变化 .关于 金融 交易 规则 
与 制度 方面 的 变化 、 经 济 激励 变动 等 ;参见 莫 菲 特 (Moffitt，1992), 弗 里 德 伦 德 . 格 
林 伯 格 和 罗 宾 斯 (Friedlander，Greenberg, and Robbins，1997) ,以 及 区 克 曼 、 拉 隆 
德 和 史密斯 (Heckman，Lalonde，and Smith，1999) 的 文献 。 如 果 所 使 用 的 处 理 能 
够 随 着 强度 或 类 型 不 同 而 变化 , 当 对 它们 进行 汇总 研究 时 ,我 们 就 用 多 重 处 理 
(multiple treatments) 这 一 术语 。 与 单一 类 型 处 理 有 关 , 这 并 没有 引致 复杂 性 ,但 现 
在 为 了 对 此 进行 研究 ,对 基准 的 选择 末 为 灵活 。 

结果 术语 表示 经 济 地 位 或 者 个 体 的 经 济 状况 环境 变化 。 一 种 重要 情况 是 , 当 
关注 结果 是 连续 变量 的 情形 ,比如 说 y, 而 处 理 变量 是 离散 的 且 处 于 变化 /不 变化 ， 
比如 说 D, 如 果 处 理 得 到 应 用 ,那么 DD 取 值 1, 否 则 九 取 值 0。 干 预 的 一 个 例子 是 ， 
劳动 力 市 场 培训 ,这 种 培训 能 影响 到 工人 培训 后 的 工资 。 然 而 ,通常 结果 要 么 是 连 
续 的 或 离散 的 ,要 么 表现 出 受 限 变化 。 可 是 ,详细 分 析 将 会 随 情况 不 同 而 变化 ,但 
某 些 重要 思想 在 所 有 情况 中 都 是 有 意义 的 。 为 了 简单 起 见 ,将 连续 结果 与 二 值 处 
理 作为 我 们 研究 的 主要 情况 。 稍 后 ,将 这 种 分 析 扩 展 到 其 他 有 关 的 特别 情形 。 

处 理 评估 的 政策 意义 是 直接 的 , 因为“ 成功? 处理 与 人 们 期 望 的 社会 项 目 相 联 
系 ,或 者 已 有 项 目的 改进 达到 社会 政策 等 目标 。 区 克 曼 与 史密斯 (Heckrman and 
Smith，1998) 曾 经 讨论 过 , 几 种 广泛 使 用 的 测量 处 理 影 响 以 及 与 传统 成 本 效益 分 
析 之 间 的 关系 。 

处 理 评估 的 标准 问题 包括 对 处 理 与 结果 之 间 的 因果 联系 进行 推断 。 在 标准 单 
个 处 理 例子 中 ,我 们 可 观测 到 (Cy; ,x%;,D;), i 二 1,…,NN, 而 一 旦 x 保持 冉 定 不 变 , 关 
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于 y 的 假设 D 变动 的 影响 是 人 们 关注 的 内 容 。 这 种 推断 是 潜在 结果 模型 的 重要 
特征 ,已 在 第 2 章 引 进 , 在 此 情况 下 ,关注 结果 变量 就 可 在 已 处 理 状 态 与 未 处 理 状 
仿 之 间 加 以 比较 。 不 过 ,不 是 所 有 个 体 在 这 两 种 状态 中 都 可 以 同时 被 观测 到 。 因 
此 ,该 情况 接近 于 缺失 数据 ,但 它 能 借助 于 反 事 实 (counterfactuals) 所 完成 的 因果 
推断 方法 加 以 研究 。 倘 若 一 个 人 接受 处 理 , 则 将 探索 平均 处 理 个 体 的 结果 会 出 现 
怎样 变动 。 也 就 是 说 ,关注 诸如 数量 Ay/AD。 人 们 的 关注 内 容 本 质 上 是 由 这 种 干 
预 引 起 的 。 此 处 ,因果 是 在 其 他 条 件 相 同 (ceteris paribus) 的 意义 下 ,对 所 有 其 他 变 
量 保 持 常 值 。 

本 章 和 前 面 几 章 之 间 的 区 别 是 什么 呢 ? 对 此 ,我 们 还 会 考察 各 种 模型 的 识别 
与 估计 吗 ? 它们 存在 许多 相似 点 ,但 其 差异 源 和 月 强调 内 容 的 变动 。 主 要 差异 来 源 
于 对 处 理 有 效 性 的 测量 族 。 这 些 测量 都 是 参数 与 数据 的 函数 ,同时 它们 能 够 比较 
有 关 政 策 的 反 事 实 。 一 个 重要 而 有 意思 的 结果 是 ,已 知 数据 与 估计 量 , 并 不 能 建立 
所 有 的 测量 。 在 估计 模型 时 ,对 所 使 用 的 估计 量 与 数据 类 型 的 选择 均 受 限于 能 够 
成 为 可 识别 的 反 事 实 , 从 而 能 一 致 估计 出 影响 测量 。 

在 处 理 评估 文献 中 , 另 一 个 强调 内 容 是 ,保证 利用 最 小 项 数 形 式 与 排除 约束 的 
识别 优点 (例如 , 半 参 数 识别 )。 这 种 强调 是 由 产生 政策 意义 但 其 有 效 性 并 不 依赖 
于 强 假设 愿望 而 引发 的 。 半 参数 识别 的 可 行 性 ,在 含有 关于 因 变 量 连续 支 集 的 线 
性 模型 中 ,建立 处 理 效果 估计 ,与 在 含有 受 限 内 变量 的 非 线 性 模型 中 建立 处 理 效 条 
估计 相 比 ,相对 更 容易 一 些 。 

25. 2 节 讨 论 识 别 性 假设 。25. 3 节 阐 述 处 理 效 果 的 测量 ,这 通常 是 识别 与 估计 
的 目标 。25. 4 节 分 析 匹 配 估计 量 与 倾向 得 分 估计 量 。25. 5 市 涵盖 处 理 效 果 的 差 
异 中 差分 佑 计量, 这 是 在 拟 试 验 数 据 设 置 背 景 下 人 研究 事件 所 普遍 采 用 的 。 

一 日 继续 拥有 拟 试 验 设 置 背 景 , 在 25. 6 节 , 我 们 讨论 回归 非 连续 性 设计 ,然后 
在 25.7 节 借 助 于 工具 变量 估计 量 进 行 研究 。 迁 今 为 止 , 大 多 数 讨论 内 容 都 与 线性 
模型 有 关 。 而 25. 8 节 提 供 运 用 本 章 介 绍 的 方法 进行 详细 阐明 的 一 个 例子 。 


25.2 痛 曲 设置 与 假设 


对 处 理 效果 进行 估计 的 方法 依赖 于 促使 因果 效果 可 识别 的 一 些 假 设 , 例 如 , 线 
性 SEM 依赖 于 允许 因果 效果 的 假设 (参见 第 2 章 )。 在 本 节 , 我 们 详 述 允 许 使 用 重 
要 匹配 估计 量 与 倾向 得 分 估计 量 的 假设 ,这 些 估计 量 稍 后 在 25. 4 加 以 曾 述 。 
首先 ,研究 实施 估计 时 对 因 末 参数 进行 售 计 的 框 淋 ， 


25.2.1 人 处理 驳 果 奏 架 


让 我 们 以 社会 实验 中 对 处 理 指派 的 随机 化 设置 背景 开始 ,如 同 3. 3 方 所 阐述 
的 。 设 存在 关注 处 理 的 目标 总 体 , 并 设 N 表示 随机 选取 个 体 数 目 , 这 些 个 体 是 目 
愿 参与 处 理 的 。 设 Nr 表示 随机 选取 的 已 处 理 个 体 数 , 设 Nc 一 N 一 Nr 表示 未 处 
理 个 体 数 , 它 们 作为 潜在 对 照 组 ` 11(control group) 。 


[1] 又 称 为 控制 组 。 一 一 详 者 广 
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随机 指派 蕴含 着 ,指派 会 忽略 处 理 对 结果 的 可 能 有 影响。 例如 ,在 处 理 组 中 , 不 
存在 由 于 个 体 预 期 利益 大 而 被 列 在 处 理 范围 之 内 ,同时 因 个 体 预 期 利益 小 则 不 于 
考虑 的 这 种 情况 。 设 (y ,x;,D;; i 一 1,…,NN) 表 示 关 于 纯 量 值 结果 变量 (outcome 
variable) 观测 值 y 的 向 量 、 可 观测 变量 x 的 向 量 以 及 处 理 变 量 D 的 二 值 指 示 变 量 。 
为 了 简单 起 见 ,假定 被 指派 处 理 的 任何 人 都 参与 ,而 设 有 被 指派 处 理 的 任何 人 都 不 
参与 。 已 处 理 个 体 的 结果 变量 记 为 y1 ,而 未 处 理 个 体 的 结果 变量 记 为 mw。 在 实施 
试验 并 且 搜 集 到 数据 之 后 ,我 们 希望 获得 处 理 影 啊 的 测算 。 对 人 外 理 效 果 进 行 测量 
的 一 种 最 普通 方法 是 ,建立 对 已 处 理 (treated) 平 均 结 果 组 与 末 人 处 理 (nontreated) 组 
平均 结果 比较 的 测算 。 

与 之 相伴 的 一 个 重要 差异 是 ,相同 数据 设置 背景 能 用 于 观测 数据 。 该 差异 在 
于 不 存在 对 处 理 的 随机 指派 机 制 。 或 许 因 为 个 体 已 被 选取 处 理 , 或 者 因为 茶 种 其 
他 原因 。 

开始 时 就 需要 声明 , 绝 大 部 分 处 理 评估 研究 具有 部 分 平衡 特征 。 具 体 地 讲 , 人 
们 假定 不 存在 一 般 平衡 效果 。 由 此 ,我 们 意 指 处 理 效 果 小 且 不 会 影响 到 某 些 被 看 
成 是 外 生 的 变量 状况 。 如 果 人 们 考察 会 影响 整个 部 门 的 处 理 项 目 , 而 该 部 分 是 国 
民 经 济 的 重要 部 分 ,那么 这 个 假设 将 不 成 立 。 例 如 ,设立 全 体 健 康 保险 会 对 整个 健 
康 服务 部 分 产生 影响 ,这 很 难 应 用 本 章 讨 论 的 方法 。 

在 建立 处 理 效果 估计 时 ,存在 许多 潜在 陷阱 。 建 立 这 类 测算 的 假设 变化 而 引 
起 的 各 种 解释 之 间 存 在 着 微妙 差异 。 因 此 ,我 们 通过 审视 这 些 假设 来 开始 。 
25.2.2 条 件 狼 立 性 假 厂 

对 两 个 组 结果 之 间 进 行 有 意义 的 比较 ,需要 某 些 假设 。 我 们 首先 列 出 并 解释 
这 些 假设 , 稍 后 在 讨论 某 个 处 理 效 应 的 可 识别 性 时 ,使 用 它们 。 

一 个 重要 的 假设 是 条 件 独 立 性 假设 (conditional independence assumption ) , 其 
内 容 表 述 如 下 ,以 x 为 条 件 的 结果 与 处 理 是 独立 的 ,可 写成 : 

yory1 LDIx (25. 1) 
该 假设 的 行为 含义 是 指 一 旦 控制 由 x 不同 而 引起 的 结果 差异 之 后 ,处 理 项 目的 参 
与 不 依赖 于 结果 。 正 确 运 用 随机 指派 ,将 会 证 实 这 个 假设 。 实际 上 ,在 完全 随机 指 
派 下 ,人 们 甚至 可 做 出 一 个 较 强 假设 : 
yy LD (25. 2) 
因为 随机 化 是 针对 (y,x) 空 间 进 行 的 。 更 广泛 使 用 假设 (25. 1) ,假如 该 假设 有 效 ， 
它 对 某 些 影响 参数 的 识别 是 有 用 的 ,因为 它 表述 的 内 容 是 ,一 旦 我 们 控制 住 某 些 与 
D 有 关 的 回归 元 x 的 效应 , 则 处 理 与 结果 均 是 独立 的 。 

条 件 独 立 性 假设 具有 很 宽泛 的 意义 ,并 缠 含 着 下 述 内 容 : 

F (vy;|x,D=1)=F(y;|x,D=0)=F(y;|x), J=0,!1 (25. 3) 
F Cu 1x,D=1)=F(Cu|x,D=0)=F(u|x), j=0,1 


其 中 ,u 表示 回归 模型 误差 , 它 意味 着 参与 决策 没有 影响 到 潜在 结果 的 分 布 (distri- 
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bution of potential outcomes) 。 
为 了 理解 这 个 假设 的 影响 , 设 ELy|x, Dj 是 线性 的 ,也 就 是 说 ,参与 结果 方 
程 是 : 
y 一 X BT 十 aD 十 zx (25. 4) 


其 中 ,E[wu|Dj==ELy 一 x B86 一 aDIDj= 二 0。 因 此 ,可 将 D 处 理 成 外 生变 量 , 而 且 不 存 
在 联 立 性 偏 倚 或 选择 性 偏 傅 。 在 标准 的 以 x 为 条 件 下 ,对 回归 参数 进行 一 致知 计 
是 可 行 的 。 
比 式 (25. 1) 稍 弱 的 一 个 假设 是 : 
yo [| DIx (25. 5) 


这 蕴含 着 参与 同 y。 是 独立 的 。 该 假设 用 于 建立 对 已 处 理 总 体 平 均 处 理 效应 
(treatment effect on the treated，ATET) 的 可 识别 性 ,正如 稍 后 将 看 到 的 那样 。 

文献 中 ,假设 式 (25. 5) 还 有 其 他 称谓 。 英 伯 斯 (Imbens，2005 ) 称 它 为 非 混乱 
性 假设 (unconfoundedness assumption ) , 而 鲁 窒 称 它 为 可 忽略 性 假设 (Cignorability 
assumption)[ 鲁 宾 (Rubin,1978) ,伍德 里 奇 (Wooldridge，2001)j。 假 如 有 效 , 该 假 
设 芍 含 着 一 旦 被 包括 在 回归 中 ,就 没有 省 略 变量 偶 倚 (omitted variable bias) ,因此 
将 不 会 出 现 混 消 局面。 这 个 假设 与 忽略 结果 的 处 理 指派 有 关 ; 因 而 , 称 它 为 可 忽略 
性 假设 是 适宜 的 。 

如 果 将 处 理 变 量 看 成 是 外 生 的 ,就 必须 含有 该 假设 ,为 使 估计 简单 ,这 样 做 必 
不 可 少 。 如 果 有 效 ,就 不 需要 样本 选择 模型 或 用 于 处 理 内 生 处 理 变 量 的 IV 方法 ， 
但 可 运用 25. 4 节 的 方法 。 


25. 2.3 ”匹配 假设 
第 二 个 假设 称 为 交叉 或 匹配 假设 (overieap or matching assumption) , 它 是 识别 
影响 某 种 总 体 测 量 所 必需 的 。 对 它 表 述 如 下 : 
0 一 PrrD=1| 妇 一 1 (25. 6) 


该 假设 确保 了 ,对 于 x 的 每 一 个 值 , 既 存 在 已 处 理 情况 又 存在 未 处 理 情况 。 在 此 意 
义 下 ,在 已 处 理子 样本 与 未 处 理子 样本 之 间 存 在 着 交 义 。 对 于 每 一 个 已 处 理 个 体 
来 说 ,存在 另 一 个 具有 类 似 x 的 匹配 未 处 理 个 体 。 如 果 候 设 失 效 , 那 么 能 潜在 地 拥 
有 已 处 理 的 x 向量 个 体 ,以 及 未 处 理 的 不 同 x 的 那些 个 体 。 对 于 识别 已 处 理 组 的 
处 理 参数 来 说 ,就 不 要 求 这 一 假设 。 对 于 识别 被 随机 选取 的 个 体 的 处 理 效 应 来 说 ， 
都 需要 每 一 个 参加 者 有 一 个 类 似 的 非 参加 者 。 于 是 ,条 件 PrLD 二 1|xj 一 1 就 足 
够 了 。 


25. 2. 4 宁 父 鸠 倡 假 设 
第 三 个 假设 是 条 件 均 值 独立 性 假设 (conditional mean independence assumption) : 
E[ yo |D=1,x|=ELyo |D=0,x|= El yo |X) 《2D. 7 ) 
这 意味 着 wm 不 能 决定 参与 。 


2s.2.5 颂 丫 得 爷 


当 处 理 参与 不 是 由 随机 指派 的 ,而 是 随机 地 依赖 于 可 观测 变量 x 回 量 , 如 同 观 
测 数据 一 样 , 或 将 处 理 作为 某 个 由 一 些 可 观测 特征 (例如 年 龄 ,性别 或 社会 经 济 地 
Y) 所 定义 的 总 体 时 , 倾 回 得 分 (propensity scores) 概 念 是 有 用 的 。 这 是 一 个 x 给 定 
时 关于 处 理 参 与 的 条 件 概 率 测 量 , 并 用 p(x) 表 未 : 


px)=Pr| D—=1|X—=x| (25. 8) 


倾向 得 分 测量 可 在 给 定数 据 (D; ,x;) 时 ,利用 第 14 章 研 究 的 参数 或 半 参 数 方 法 ( 例 
如 ,通过 做 一 个 logit 回归 ) 计 算出 来 。 
在 处 理 评估 中 ,起 着 重要 作用 的 假设 是 平衡 条 件 (balancing condition) , 它 可 表 
述 成 ; 
D | x| px) (25. 9) 


这 能 以 另 一 种 可 选择 的 方式 表述 如 下 :对 于 具有 相同 倾 回 得 分 的 个 体 来 说 ,指派 处 
理 是 随机 的 ,从 而 它们 的 x 同 量 应 该 看 起 来 是 一 样 的 。 平 衡 条 件 是 一 个 可 检验 的 
假设 。 

给 定 训 (xy) 时 条 件 独 立 性 的 一 种 有 用 结果 是 由 罗 条 鲍 姆 和 重 宣 (Rosenbaum 
and Rubin，1983) 给 出 的 , 它 可 表述 成 : 


yoyyl [DIx—> yo,y | DI|p(x) (25. 10) 


这 蕴含 着 ,给 定 x 时 的 条 件 独 立 性 假设 意味 着 给 定 p(x) 时 存在 条 件 独立 性 ,也 束 
是 说 ,给 定 p(x) 时 ,yo、yi 以 及 DD 都 是 独立 的 。 
为 了 获得 这 一 结 朱 ,注意 到 : 


Pr[D=1|y ,yp x)=ELD|yo, yi, p(x) 
=El ELD|y, ，y1 D(X) ,X |] | yo » V1 ,p(X) | 
= E| ELD|y, » VY ,X | | yo | ,p(X) 
=ELELD|x||y,,y ,p(X) 
=ELp(X) | yo ,Yi p(X) 
— p(X) 


这 里 ,第 二 行 与 第 三 行 均 用 到 了 期 望 迭 代 定 律 。 第 四 行 等 式 利 用 了 条 件 独 立 性 。 
支持 此 结果 的 一 种 直觉 是 , p(x) 是 x 的 一 种 特殊 函数 ,在 某 种 意义 上 ,p(x) 包 含 的 
信息 比 x 中 的 要 少 一 些 。 因 此 ,给 定 p(x) 时 ,条 件 独 立 性 必然 包含 给 定 x 时 的 相 
同 内 容 。 因 为 通过 以 x 为 条 件 , 可 去 掉 x 与 品 之 间 的 相关 性 ,同样 地 通过 以 倾向 得 
分 p(x) 为 条 件 , 也 可 去 掉 x 与 中 之 间 的 相关 性 。 因 而 ,类 似 于 式 (25.4) 的 回归 是 : 


yy 一 XB 十 az 思 (xX) 十 zx (25,.11) 
=x G++ap(lx)i uta(p(x) — p(xX)) (25, 12) 


其 中 ,第 二 行 中 未 知 p(x) 可 用 样本 估计 量 来 代替 ,导致 了 除 抽 样 误差 以 外 还 有 回 
归 误 差 。 这 种 策略 的 优 缺 点 稍 后 将 加 以 考虑 。 表 25. 1 对 记号 及 含义 给 出 了 一 个 
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家 25.1 处 理 效 应 框架 








符号 定 义 
多 己 处 理 组 结果 
Vo 未 处 理 组 结果 
p(x) 倾向 得 分 
Nr 样本 中 处 理 案例 个 数 


29.3 处 理 效 应 与 选择 偏 倚 


我 们 以 阐述 两 个 广泛 运用 的 处 理 效应 测量 开始 ,这 两 个 测量 中 ,一 个 是 对 所 有 
个 体 进行 平均 ,而 另 一 个 是 仅仅 对 已 处 理 个 体 进行 平均 。 然 后 ,我 们 以 某 种 详细 方 
式 讨论 选择 对 处 理 的 作用 。25. 4 一 25. 6 节 阐 述 一 些 方法 ,假定 选择 效果 直接 依赖 
于 个 体 的 唯一 可 测量 特征 ,比如 年 龄 。 此 外 ,如 果 选 择 效果 依赖 于 不 可 观测 成 分 ， 
就 必须 使 用 第 16 章 的 方法 。 本 节 包 括 对 选择 问题 的 重要 讨论 。 


25. 3. 1 两 个 重要 参数 : ATE 与 ATET 
将 A 定义 成 已 处 理 个 体 与 未 处 理 个 体 结 果 之 差 , 它 可 表述 成 ， 
入 一 Vi Yo 《2D， 13) 


此 处 ,假如 愿意 ,还 可 以 以 x 为 条 件 表 述 。 需 要 强调 的 是 ,A 是 不 能 直接 观测 到 的 ， 
因为 没有 一 个 个 体能 在 两 个 状态 下 均 被 观测 到 。 将 平均 处 理 效应 (average treat- 
ment effect, 简 记 为 ATE) 与 已 处 理 的 平均 处 理 效应 (average treatment effect on 
the treated) 的 总 体 值 定义 成 : 


ATE=E[A) (25. 14) 
ATET= EFA|D= 1 (25. 15) 
其 样本 类 似 形式 为 、 
ATE = EA (25. 16) 
NT 
ATET = N: LA 万 = 17 (25. 17) 


其 中 ,Nr 王 之 Di。 就 这 两 种 情况 的 每 一 个 而 言 , 若 能 获得 A;, 则 可 直接 进行 计 
算 。 由 于 公式 含有 必须 加 以 估计 的 不 可 观测 成 分 ,并 且 估 计 步 又 要 求 某 些 假设 ,所 
以 该 方法 并 不 能 直接 运用 。 

当 处 理 具 有 普 适 应 用 性 ,ATE 测量 才 有 意义 ,所 以 对 随机 选取 的 总 体 成 员 来 
说 ,考察 从 处 理 中 获得 的 假设 增益 是 合情合理 的 。 当 我 们 考察 已 处 理 个 体 从 处 理 
中 获得 的 平均 增益 时 ,ATET 测量 才 有 意义 。 参 几 薪 友 紧 和 维特 拉 西 尔 (Heckman 
and Vytlacil, 2002)。 
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为 了 理解 处 理 评估 问题 ,考察 给 定 特征 x 时 从 参与 中 获得 的 增益 平均 。 这 
ATE =E[A|X=x| (25. 18) 
=El yi—yo |X=x] 
=E| yi |X—=xj—Ely,|X=x| 
=FELy|x,D=1]—ElLy。|x,D=0] 


其 中 ,最 后 一 个 等 式 使 用 了 条 件 独立 性 假设 (25. 1)。 
给 定 参加 者 样本 ,可 以 对 E[ yi 1D 一 1,xj 进 行 估计 。 然 而 ,ELyo |x,DD==0j] 是 不 
可 观测 的 ,因为 它 是 对 那些 事实 上 没有 参与 的 参加 者 平均 结果 的 测量 ,同时 人 们 不 
能 同时 观测 到 同一 个 个 体 既 是 参加 者 又 是 非 参加 者 。 为 了 执行 ATE 运算 ,就 必须 
求 出 第 二 项 估计 量 。 
由 定义 (25. 18) 知 : 
ATE =FEly|x,D=1|—El yo|x,D=0| (25. 19) 
= (XxX) po (XH ELu |x, D=11]—ELw |x,D=0] 
=p (xX) — po CX) ELu |x|—ELwu, |x) 
— p(X)— po xX) (25. 20) 


其 中 ,等 号 右边 第 一 行 中 第 一 项 可 利用 源 自 处 理 参加 者 的 数据 得 到 估计 ,而 第 二 项 
却 不 能 直接 观测 到 。 第 三 行 用 到 了 条 件 独 立 性 与 条 件 均 值 假 设 , 同 时 对 已 处 理 个 
体 采 用 yi 二 pj (X) 十 ui 设 定 ,并 对 未 处 理 个 体 采 用 yo 二 jo (xX) 十 wo 设 定 。 最 后 一 行 
第 二 项 仅仅 需要 均值 独立 性 ,而 不 是 完全 条 件 独立 性 。 


25. 3. 2 折 荐 佣 傈 与 选择 佣 倚 


评 佑 问题 的 症结 为 ,EL yo。 二 x, DD 二 1j] 是 不 可 观测 的 。 对 此 问题 的 解决 部 分 依 
顿 于 可 利用 数据 的 类 型 。 社 会 实验 都 使 用 适宜 参加 者 ,而 这 些 参 加 者 被 排除 在 组 
之 外 作为 反 事 实 的 代表 。 观 测 研 究 从 相同 资源 或 从 其 他 数据 库 中 生成 对 照 组 
(comparison group) 作 为 已 处 理 组 ,同时 以 利用 ELw |x,D= 二 0 的 某 个 函数 来 结束 ， 
而 该 函数 可 利用 源 自 非 参 加 者 的 数据 得 到 估计 。 当 数据 来 自 设 定 良好 且 已 执行 的 
社会 实验 时 ,计算 的 简单 性 应 该 被 认为 是 对 照 现实 社会 实验 的 背景 ,社会 实验 受 限 
于 其 他 一 些 问题 ,诸如 随机 化 偏 倚 (randomization bias) 以 及 替代 偏 倚 (substitution 
bias) (第 3 章 曾 讨论 过 ) 。 

假定 对 于 已 处 理 参加 者 来 说 ,其 结果 方程 为 : 


yi —EL yi [xu (25. 21) 
= p(X) Tu (25. 22) 
而 对 于 非 参 加 者 来 说 , 其 方程 为 : 
yo — El yo| xj 十 za (25. 23) 
i (xX) we (25, 24) 


注意 到 ,这 种 设 定 意义 下 具有 (类 似 于 16.7 节 已 讨论 的 罗 伊 模型 ) 转 换 回 归 形 式 ， 
即 已 处 理 组 与 未 处 理 组 具有 不 同和 条件 均值 范 数 jw (X) 与 yo (XxX) ,这 两 个 函数 可 用 比 纯 
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线性 模型 所 必需 的 记号 更 为 一 般 的 形式 写 出 来 。 我 们 假定 ,Efw |xj]= 二 Elw |xj= 二 0， 
尽管 ELui |x,D] 与 ELwo |x;,D] 不 一 定 等 于 0。 
一 种 普遍 却 有 约束 性 的 设 定 为 : 
AICX) 一 上 oCX) TaD 《25. 25) 


其 中 ,已 处 理 组 含有 附加 截 距 成 分 a, 但 回归 元 的 斜率 系数 并 没有 受到 处 理 影响 。 
观测 到 的 结果 可 写成 : 
y= Dy (1—D)~yo (25. 26) 
将 上 述 这 些 式 子 组 合 起 来 ,得 到 
y 三 Dp (WT ) t(D) Co (x)twuo) 
— po (Xx) 十 也 CA (x) — go (X) 十 MUI 一 Mo ) wo (25., 27) 
因为 D 二 1 或 者 0, 所 以 回归 的 第 二 项 “转换 ”成 开 或 关 。 式 (25. 27) 中 的 第 二 项 测 
量 了 参与 利益 ;其 第 一 个 成 分 u(x) 一 jw (Xx) 测算 了 具有 特征 x 的 参加 者 平均 增益 ， 
而 第 二 个 成 分 (wj 一 wo) 测 算 的 是 特定 个 体 的 利益 。 第 二 个 成 分 可 以 被 参加 者 观测 
到 ,但 不 能 被 研究 者 观测 到 。 
对 于 一 般 情况 及 特殊 化 的 式 (25. 25) 来 说 ,ATE 与 ATET 的 表达 式 已 由 表 
25. 2 给 出 。 


表 25.2 处 理 效 应 测量 :ATE 与 ATET 


测量 处 理 效 应 特殊 情况 (25. 25) 
给 定 区 时 ATE E[ A|lxj]= (XxX) A (CX) EL AI 一 ac 
含有 x 及 选择 效 ELA|x,DD= 二 1 “ELA|x, D=1] 
应 的 ATET = (Wpo RTE ww lx, D=1| 一 ce 十 El  —w |x, DS=1] 
含有 x 个 体 的 额 。 El[u 一 w |x,D= 二 1] Elu 一 zo |x, D=1] 
外 利益 
平均 选择 偏 倚 Elw |x, D=11]— Elw |x,D=0] Elw |x, D=1]— Elw |x,D=0] 


平均 选择 偏 倚 是 处 于 基本 状态 下 项 目 参 加 者 与 非 参 加 者 之 间 的 差异 。 这 种 效 
应 不 能 归 因 于 项 目 。 一 种 特殊 情况 是 ,ELa wo xX, DO— 1 二 0, 硅 利益 不 存在 不 可 
观测 成 分 ,或 者 ul 一 wuo 的 最 佳 个 体 佑 计 是 0, 则 会 出 现 这 种 情况 。 

当 结 果 方 程 中 的 处 理 变 量 与 误差 相关 时 ,就 产生 了 选择 偏 们 。 这 个 相关 性 是 
由 不 正确 省 略 了 可 观测 变量 而 引起 的 ,而 省 略 掉 的 可 观测 变量 会 部 分 决定 万 与 
yo。 于 是 ,回归 误差 的 省 略 变量 成 分 将 是 与 D 相关 的 ,这 正 是 基于 可 观测 成 分 选 
择 (selection on observables) 的 情况 。 男 一 个 根源 包括 既 决 定 D 又 决定 y 的 不 可 观 
测 因 素 。 这 是 基于 不 可 观测 成 分 选择 (selection on unobservables) 的 情况 。 条 件 独 
立 性 假设 本 质 上 会 得 除 掉 由 省 略 变 量 而 引起 的 混 淆 。 


25. 3.3 对 可 观测 因 对 的 碗 择 
在 观测 数据 中 ,基于 可 观测 成 分 的 选择 问题 可 通过 利用 回归 方法 与 匹配 方法 
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来 解决 。 本 章 后 面 几 节 将 详细 闸 述 这 些 方法 。 在 这 样 做 之 前 ,注意 到 ,16. 4 节 的 
两 部 分 模型 是 一 个 例子 ,而 在 本 节 我 们 讨论 第 二 种 简单 方法 。 

控制 晒 数 估计 量 (Ccontrol function estimator) 是 受到 决定 DD 的 可 观测 变量 集合 
可 能 与 结果 相关 的 可 能 性 而 提出 的 。 具 体 起 见 ,考察 结果 方程 为 


yi—=x%iB taD; tu (25. 28) 
的 一 种 特殊 情况 , 而 误差 是 使 得 
ElLu; |x;,D; = ELu:; |x;, D; ,2;] 
在 基于 可 观测 成 分 选择 的 情况 下 ,有 ELu;|z; ] 关 0。 让 我 们 写成 : 
ELy |x;,D;,z; |=x;B aD; + ELu; |x:;,Z; | (25. 29) 


这 就 引发 了 使 用 建立 在 方程 OLS/GLS 估计 基础 上 的 控制 函数 估计 量 。 其 基本 思 
想 是 ,对 可 能 与 w 相关 的 所 有 可 观测 变量 引入 结果 方程 ,然后 通过 最 小 二 乘法 估 
计 得 到 的 方程 。 特 别 地 ， 


y=C@ aD;+ (wu;— ELu, 1D,,C, |} (25. 30) 


其 中 ,C; 包括 了 所 有 被 x 或 z 所 包含 的 变量 。 回 归 中 z 的 存在 会 和 吻 除 与 z 之 间 
可 能 的 相关 性 。 注 意 到 ,大 存在 苦于 不 可 观测 成 分 的 选择 , 它 是 由 既 影 响 DD 又 影 
响 的 共同 不 可 观测 因素 引起 的 , 则 仍然 有 潜在 的 识别 间 题 。 

这 种 估计 量 被 赫 克 曼 和 和 霍 菊 (Heckman and Hotz，1989) 使 用 ,他 们 还 提出 了 
基本 控制 函数 估计 量 的 一 系列 变形 。 


25.3.4 基于 不 可 观测 成 分 人 选择 


现在 ,考察 处 理 参 与 决策 为 内 生 的 一 种 特殊 线性 情况 。 这 是 具有 “内 生 虚 拟 
变量 ”类 型 的 十 分 著名 的 模型 。 当 以 观测 数据 进行 研究 时 ,该 模型 在 实证 上 是 非 
常 重要 的 ,因为 在 这 种 情况 下 ,存在 几 种 原因 放弃 约束 性 假设 y,y | DiIx 或 
ELu|x,Dj 一 0。 条 件 独 立 性 假设 失效 蕴含 着 ,简单 最 小 二 乘法 回归 不 能 识别 
ATE, 从 而 应 致力 于 一 种 可 供 选 择 的 识别 策略 。 

我 们 将 要 讨论 的 识别 策略 的 基本 要 素 为 其 他 选择 模型 所 共有 。 该 方法 包括 相 
当 强 的 识别 假设 ,并 且 是 完全 参数 的 。 在 考虑 的 特殊 情况 下 ,其 设 定 类 似 于 罗 伊 模 
型 。 对 结果 方程 条 件 的 均值 采用 线性 形式 。 通 过 添加 关于 D; 的 参与 (二 值 ) 决 策 
方程 ,可 完成 此 模型 。 于 是 : 

yi—=xB1 tu (25. 31) 
Yoi™— x; Oo 十 wo; 
D’* =z;”y 十 gs， 
其 中 ,Di 表示 潜 变 量 , 使 得 : 
1， 当 上 且 仅 当 Di; 0 


ie saus Dre 
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而 且 , 假 定 E[x 1x,zj] 王 EL zx |x,z] 一 0。 
变量 z 可 能 与 x 交 去 ,但 要 假定 z 至 少 一 个 成 分 是 唯一 的 ,该 成 分 记 为 xz ,并 
是 DD 的 非 平凡 行列 式 。 也 就 是 说 ,D 至 少 存在 变异 的 一 个 独立 根源 。 因 此 ,我 们 
称 zi 为 工具 变量 , 它 写 内 生变 量 D 相关 ,而 与 结 来 y; 和 yo 不 相关 ,只 是 DD 除外 。 
然后 ,假定 三 元 组 (Ca ? Woi s Ei ) 服 从 联合 多 变量 正 态 分 布 ,其 均值 为 0, 并 且 协 方 


差 息 阵 互 为 : 
Ol Ol Me 
2 一 Goo0 » 《25. 33) 
le ODe 1 


非 零 协 方差 矩阵 系数 gj 与 oo 反映 处 理 变 量 的 内 生性 。 协 方差 参数 co 反映 结果 之 
间 的 协 方差 。 因 为 我 们 永远 不 能 在 两 个 状态 下 观测 到 同一 个 体 , 所 以 不 能 识别 这 
一 系数 ,而 通常 令 其 为 0。 为 了 识别 ,对 e 的 方差 限制 成 1。 

已 知 这 类 完全 参数 设 定 ,通过 极 大 似 然 法 或 两 步 半 参数 方法 对 此 模型 进行 佑 
计 。 这 些 问题 的 大 多 数 已 经 在 第 16 章 讨 论 过 。 将 佑 计 问 题 放 在 一 著 ,考察 处 理 影 
啊 的 测量 。 

参与 的 益处 或 ATET 可 由 





Efyw |D=1]—y x84 ow $7 (25. 34) 
V1i 0; :i Vi 了 大 大 站 OOe (1—@(zy )) 。 
给 出 , 它 还 可 写成 : 
, (zi ) 
EF yi |D;=1]—Efyo |D=1]=x (8,— Bo) + (ow od? 7 (2D. 3o) 


其 中 , (oo 一 ae)g(Z2T )/ (zy ) 表 示 选 择 效应 (selection effect) ,参见 16.7. 1 节 。 

在 xB6。 二 x;B1 且 处 理 虚 拟 变量 以 线性 方式 含有 a 系数 进入 方程 的 特殊 情况 
下 ,项 目的 平均 影响 由 

El y;|D; 二 1 一 ELy;|1D; 一 0 二 a 十 选择 项 (25. 36) 

给 出 。 
在 某 些 样本 情形 下 ,这 种 识别 策略 或 许 有 点 脆弱 。 例 如 ,已 处 理 组 与 未 处 理 组 
可 以 截然 不 同 , 多 变量 正 态 性 假设 可 能 显得 不 合适 ,或 者 识别 工具 变量 z 与 结果 
方程 的 误差 可 能 是 弱 相 关 的 或 相关 的 。 

这 些 考虑 激发 了 使 用 本 章 阐 述 过 的 可 供 选 择 的 估计 方法 。 这 些 佑 计量 通 第 假 
定 仅 仅 基 于 可 观测 成 分 选择 ,此 外 尽管 当选 择 是 基于 不 可 观测 成 分 进行 时 ,25.7 
节 将 阐述 利用 N 方 法。 


25. 4 匹配 估计 量 与 倾 回 得 分 佑 计量 


在 观测 研究 中 ,由 定义 知 , 不 存在 实验 控制 。 因 此 ,不 存在 作为 已 处 理 组 与 未 
处 理 组 之 间 平 均 差异 计算 ATE 的 直接 对 应 形式 。 换 名 话说, 反 事实 是 不 可 识别 
的 。 作 为 一 种 替代 ,我 们 从 一 系列 潜在 的 比较 单元 中 获得 数据 ,比较 单元 不 一 定 从 
同一 总 体 中 抽取 作为 已 处 理 单元 ,但 对 此 而 言 , 可 观测 特征 x 会 匹配 到 已 处 理 单元 
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的 那些 特征 已 经 达到 茶 种 选择 的 密切 程度 。 

在 没有 处 理 的 情况 下 ,未 处 理 匹 配 组 的 平均 绪 采 可 识别 出 已 处 理 组 的 平均 对 
应 结果 。 这 种 方法 通过 假定 选择 与 以 x 为 条 件 的 未 处 理 的 结果 是 不 相关 的 来 解决 
评估 问题。 为 了 实施 此 方法 ,有 必要 定义 出 匹配 准则 。 


25. 4. 1 人 外 理 驳 应 假 度 


当 对 处 理 进 行 选择 仅仅 是 基于 可 观测 成 分 实施 时 ,处 理 效 应 的 匹配 估计 量 是 
有 用 的 。 此 外 ,假定 交 夺 (或 支撑 ) 条 件 [overleap (or support) condition ](25. 6 ) 可 
以 应 用 , 它 意 味 着 对 于 每 一 个 x, 存 在 一 个 正 的 非 参 与 概率 。 这 一 点 确保 我 们 对 于 
第 一 个 x 来 说 ,都 拥有 未 处 理 的 匹配 到 已 处 理 观 测 值 。 粗 略 地 说 ,控制 总 体 与 已 处 
理 总 体 具 有 可 比较 的 观测 特征 。 生 成 好 的 匹配 意 指 可 以 确保 文 撑 条 件 不 失效 。 进 
一 步 地 ,重要 条 件 是 ,不 可 观测 变量 在 处 理 指派 与 绪 宁 确定 中 不 起 作用 。 

回归 估计 量 是 利用 估计 回归 哺 数 对 缺失 浴 在 结果 进行 估算 。 当 D; 二 1 时 ,yo.; 
就 是 利用 估计 条 件 回 归 函 数 joCx;) 估 算 的 。 匹 配 估 计量 是 利用 “最 近邻 ”的 结果 对 
缺失 值 加 以 估算 ;而 “最 近邻 ?是 通过 基本 某 个 可 观测 特征 的 合适 距离 来 定义 的 。 
这 是 匹配 估计 量 典 型 地 通 近 于 平均 值 之 差 ,而 佑 计量 的 方差 是 利用 平均 全 之 差 方 
差 的 许多 可 利用 结果 估计 出 。 

匹配 是 一 种 令 人 信服 上 且 吸 引 人 大 的 方法 ,如 果 :(1) 我 们 能 控制 变量 x 的 丰 宦 集 
合 ;(2) 存在 许多 潜在 控制 ;(3) ATET 是 关注 的 参数 。 它 还 需要 “无 一 般 均衡 效 
应 ”假设 ,或 者 稳定 单元 处 理 值 假设 (stable unit treatment value assumption ， 记 为 
SUTVA) ,这 更 含 着 处 理 没有 间接 地 影响 到 未 处 理 观 测 值 。 匹 配 佑 计量 避 开 了 处 理 
效应 以 线性 方式 进入 条 件 均值 函数 的 假设 。 对 每 个 观测 值 而 言 , 建 立 其 最 近 匹 配 
的 最 初步 又 ,也 将 会 澄 清 可 比较 控制 观测 值 是 否 是 有 价值 的 。 与 回归 方法 不 同 ,将 
范围 内 绪论 外 推 到 数据 邻 域 之 外 犯 鱼 的 危险 很 小 。 

假定 处 理 情况 是 以 所 有 可 观测 协 变量 来 进行 匹配 的 。 在 受 约束 意义 上 ,已 处 
理 组 与 未 处 理 组 之 间 的 所 有 差异 都 是 可 控制 的 。 给 定 结 果 yi 和 yo;, 对 于 处 理 组 
与 对 照 组 来 说 ,它们 的 平均 处 理 效应 分 别 为 : 


El yi|D;=1|]—Elyo|D,=0| (25. 37) 
=E[ yi;— yo 1D;= 1 {El yr | D,=1j— El wy 1D;=0j)} 


第 二 行 的 第 一 项 是 ATET, 而 大 括号 中 第 二 项 是 “偏差 ?项 , 倘 大 指派 处 理 与 控制 是 
随机 进行 的 , 则 偏差 项 将 为 0。 在 此 情况 下 ,必须 估计 ATET 的 所 有 内 容 就 是 对 因 
处 理 而 导致 的 差异 进行 平均 。 

更 为 现实 地 讲 , 数 据 将 牵涉 到 某 些 观测 到 的 协 变量 。 假 定 协 变量 包括 涉及 选 
择 进入 处 理 组 的 决定 因素 的 变量 。 如 果 已 处 理 组 与 未 处 理 组 在 协 变 量 的 每 个 组 合 
上 都 加 以 匹配 ,那么 对 于 每 个 处 理 情况 及 每 个 x; 来 说 ,处 理 差异 能 很 容易 计算 出 
来 。 对 所 有 已 处 理 个 体 与 所 有 x 上 的 差异 进行 平均 ,该 值 就 测算 了 平均 处 理 效 
应 。 正 式 地 讲 , 在 此 情况 下 [参见 安 格 里 斯 特 和 克 鲁 格 (Angrist and Krueger， 
2000, 第 1 316 页 )], 处 理 对 已 处 理 的 效应 由 : 
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E[ yu 一 yo 1D;=1j=EL[L{ElLy' | 入 ; ,D;= 1 |— El yo |x; , D; 二 0 |)} 1D,=1| 
=E| A,|D,=1| (25. 38) 


给 出 ,其 中 , Mx — El yi1; | x:; , D; 一 1 | 一 EL yw， Xi ， 站 )， 一 0 |。 
当 变 量 是 x 离散 的 时 候 , 匹 配 估 计量 可 被 定义 成 加 权 和 : 


E| yw 一 yo | D. 一 1 | 二 2 MAPr| zx;—=x|D, 一 1] | (25. 39) 


其 中 ,Pr[x; 王 x|D; 二 1] 表 示 关 于 x; 的 概率 质量 。 安 格 里 斯 特 和 克 鲁 格 (Angrist 
and Krueger，2000) 曾 经 讨论 过 关于 该 估计 量 的 多 方面 内 容 。 


25. 4.2 准确 死 本 


方法 是 要 依据 其 可 观测 特征 x, 在 已 处 理 个 体 与 未 处 理 个 体 之 间 进 行 匹配 。 

当 协 变量 向 量 是 离散 的 ,而 且 样 本 包含 x 的 每 个 不 同 值 上 的 众多 观测 值 时 ， 
准确 匹配 (exact matching) 是 可 行 的 。 

如 采 协 变量 回 量具 有 高 维 数 ,或 者 在 某 些 协 变量 之 间 连 续 变 差 得 以 表示 ,那么 
在 已 处 理 组 与 未 处 理 组 之 间 准 确 匹 配 就 会 变 得 不 切实 际 。 这 一 问题 激发 了 非 准确 
匹配 (inexact matching) 方 法 。 非 准确 匹配 是 通过 利用 通常 纯 量 f(x) ,将 x 映射 到 
较 低 维 测 度 的 、 连 续 的 或 离散 的 ,这 里 f(x) 构 成 了 匹配 的 基础 。 


25. 4.3 倾向 得 从 


倾向 得 分 方法 [ 罗 森 鲍 姆 和 和 鲁 宾 (Rosenbaum and Rubin，1983)] 是 一 种 流行 
的 非 准确 匹配 。 它 是 针对 倾向 得 分 进行 匹配 ,而 不 是 对 回归 元 进行 匹配 。 这 里 , 准 
确 匹 配 是 不 可 能 的 ,因此 比较 单元 是 那些 倾向 得 分 充分 接近 于 处 理 单 元 的 单元 。 

倾向 得 分 (propensity score) , 即 给 定时 x 接收 处 理 的 条 件 概 率 , 记 为 p(x), 是 
由 罗 和 森 侠 姆 和 和 鲁 宣 (Rosenbaum and Rubin，1983) 提出 作为 匹配 测量 。 正 如 
25. 2. 5 节 阑 述 的 ,如 果 数 据 被 证 明 针 对 x 匹配 正确 ,那么 建立 在 倾向 得 分 基础 上 
的 匹配 同样 可 以 被 证 明 是 正确 的 。 / 

倾 问 得 分 通常 利用 参数 模型 ,诸如 logit 或 probit 来 进行 估计 ,但 在 原则 上 ,也 
能 利用 非 参 数 方法 加 以 估计 。 

利用 倾向 得 分 匹配 

在 倾 问 得 分 方法 中 ,人 们 可 通过 控制 协 变量 的 特殊 函数 ,尤其 是 处 理 的 条 件 概 
率 PrLD,= 王 1|x | 来 控制 协 变量 。 也 就 是 说 ,匹配 是 针对 倾向 得 分 的 。 这 可 以 很 容 
易 地 借助 于 (例如 )logit 回归 加 以 计算 。 此 外 ,人 们 还 能 借助 于 协 变量 向 量 包 括 兆 
后 变量 来 控制 滞后 变量 。 如 果 选 择 偏 倚 可 通过 控制 x; 而 得 以 剔除 ,那么 它 也 可 通 
过 控制 倾向 得 分 来 剔除 。 以 倾向 得 分 为 条 件 常常 比 以 大 维 数 向 量 x 为 条 件 简 单 。 
德 赫 贾 和 沃 赫 拜 (Dehejia and Wahba，1998) 提 供 了 建立 在 以 前 曾 由 拉 降 德 使 用 过 
的 数据 基础 上 的 实证 说 明 。 

实施 问题 

倾向 得 分 方法 需要 好 模型 来 生成 得 分 。 我 们 关注 的 内 容 是 一 致 地 估计 参与 概 
率 , 而 不 是 倾向 得 分 因数 中 的 参数 估计 。 对 于 倾向 得 分 来 说 ,一 个 较 好 的 统计 拟 合 
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可 能 是 由 灵活 的 参数 模型 或 非 参 数 模型 引起 的 。 

基于 p(x;) 实 施 匹 配 的 三 个 有 关 问 题 是 ; (1) 匹配 是 放 回 的 还 是 不 放 回 的 ; 
(2) 用 于 比较 集合 的 单元 个 数 ;(3) 对 匹配 方法 的 选择 。 

不 放 回 匹配 意 指 , 比 较 组 中 的 任何 一 个 观测 值 仅仅 只 与 一 个 已 处 理 观 测 值 进 
行 匹 配 , 这样 做 是 最 接近 匹配 ;而 放 回 匹配 意 指 , 存 在 多 重 匹 配 。 如 采 匹 配 不 放 回 ， 
比较 集合 的 最 小 性 意 指 , 还 配 根据 训 (x) 不 可 能 是 非常 接近 的 ,这 样 将 会 使 估计 量 
的 侦 差 增 大 。 

在 比较 集合 时 ,选取 案例 数目 问题 会 这 扯 到 在 伺 傈 与 方差 之 同 的 权衡 。 通 过 
利用 对 已 处 理 案 例 的 单一 最 接近 匹配 ,人 们 可 减少 偏 从 ,但 遂 过 包括 更 多 匹配 控制 
个 体 , 就 使 方差 减少 而 偏 倚 增 大 ,对 于 已 处 理 观测 值 来 说 ,额外 的 观测 值 都 是 较 差 
的 匹配 。 部 分 解决 方法 是 依据 已 处 理 观 测 值 的 如 Cx) 半 径 使 用 预先 定义 的 邻 域 , 同 
时 去 摊位 于 这 个 邻 域 之 外 的 匹配 。 换 句 话 说 ,人 们 仅仅 使 用 较 好 的 匹配 。 这 是 所 
谓 的 “ 测 径 匹配 ”(caliper matching ) 。 

赫 克 曼 等 人 (Heckman et al. ，1997，1998) 将 从 职业 培训 协作 法 (Job Train- 
ing Partnership Act, 记 为 JTPA) 获 得 的 实验 数据 与 源 目 三 个 来 源 的 比较 组 的 样本 
结合 起 来 ,研究 匹配 估计 量 的 效果 。 数 据 质量 在 利用 号 配方 法 对 处 理 效 应 进行 称 
健 估 计 中 起 着 重要 作用 。 当 数据 来 源 及 定义 对 于 已 处 理 组 与 未 处 理 组 而 言 都 是 可 
比较 的 时 候 , 当 已 处 理 个 体 与 未 处 理 个 体 均 来 自 同一 个 劳动 力 市 场 时 ,并 且 当 倾 回 
得 分 都 可 利用 回归 元 的 丰富 集合 进行 建 模 时 ,结果 将 是 最 好 的 。 

结果 对 选取 方法 的 敏感 性 问题 并 不 易 做 出 简单 而 直接 的 回答 。 其 绪论 会 随 独 
各 种 不 同样 本 而 变化 ,依赖 于 已 处 理 与 未 处 理 观 测 值 之 间 的 交 午 程度 。 们 大 两 个 
组 在 倾向 得 分 上 存在 大 量 交 春 的 意义 是 相似 的 ,同时 比较 组 又 大 , 则 很 容 多 找到 匹 
配 , 并 且 放 回 匹 配 Cmatching with replacement) 将 是 可 行 的 。 如 末 比 较 组 是 小 的 且 
根本 不 同 于 已 处 理 组 ,那么 人 们 可 以 用 完满 意 的 匹配 ,同时 不 能 使 用 所 有 的 已 处 理 
样本 , 若 匹 配 是 不 放 回 的 ,尤其 可 能 就 是 这 种 情 疣 。 

德 赫 机 和 沃 赫 拜 (Dehejlia and Wahba，2002) 利 用 国家 文 持 工作 项 目 (National 
Supported Work Program) 数据 提供 了 一 种 有 局 发 性 的 例子 。 我 们 将 在 25. 8 节 利 
用 德 赫 机 和 沃 赫 拜 数据 集 对 实施 问题 加 以 仔细 考察 曾 明 。 


25.4.4 测量 处 理 戏 应 


把 含有 特征 的 已 处 理 案例 i 的 比较 组 作为 集合 Aj (x) 二 {x Ec(x)) ,其 中 ， 
c(x;) 表 示 x 的 特征 邻 域 。 设 N. 表示 比较 组 中 案例 个 数 , 而 设 w(i, 站 表示 在 与 第 
i 个 已 处 理 案例 比较 时 对 第 j 个 案例 给 予 的 权 数 ,jw (i,j) 二 1。 匹 配 ATET 个 
计量 的 一 般 公 式 (general formula) 是 : 


A = [ys 一 wd (25. 40) 


Nr 人 11)=—1} 


其 中 ,0 二 w(i, 丫 委 1,{D 二 1} 表 示 已 处 理 个 体 的 集合 ,; 表示 已 匹配 比较 单元 集合 
的 元 素 。 各 种 不 同 的 匹配 估计 量 ,可 通过 变动 w(i,j) 的 选取 来 生成 。 


匹配 方法 
简单 匹配 是 把 单元 (cells) 与 完全 相同 的 离散 进行 比较 : 


AM 一 Swi D1 — Yo,g) (25.41) 
友 


其 中 ,5 表示 已 处 理 的 平均 结果 ,5 表示 未 处 理 的 平均 结果 ,而 未: 表示 第 有 个 单 
元 的 权 数 (也 就 是 说 ,在 单元 部 分 的 观测 值 )。 

一 个 特定 例子 [ 德 赫 栅 和 沃 赫 拜 (Dehejia and Wahba，2002)] 是 ， 

] 1 
Nr 2 (> Ne ”) 

其 中 ,Nr 表示 已 处 理 组 (D 二 1) 的 个 数 , 而 Nc.; 表 示 对 应 于 第 i 个 观测 值 的 比较 组 
个 数 。 

对 于 每 个 已 处 理 个 体 来 说 ,最 近邻 匹配 (nearest-neighbor matching) 方 法 是 选 
择 集 合 A; (x) 二 Tminj x 一 x; ,其 中 ,中 表示 向 量 之 间 的 欧 几 里 得 距离 
(Eudidean distance)。 如 有 果 当 EA;(2W) 时 , 式 (25. 40) 中 ww(i,7 站 二 1, 否 则 为 0, 那 
么 这 种 设 定 仅仅 使 用 了 一 个 案例 来 构建 对 已 处 理 情 况 的 比较 组 ，。 

另 一 种 佑 计量 是 由 核 匹 配 (kernel matching) 生 成 的 ,这 里 有 ， 
K(x; — XX,; ) 
2 K(x —x;) 





(25. 42) 


其 中 ,K 表示 已 在 9. 3 节 讨 论 的 核 。 

这 些 方法 分 享 了 在 估计 ATET 时 避免 关于 结果 方程 的 函数 形式 假设 的 优点 ， 
同时 在 x 的 特定 值 上 对 其 进行 估计 。 这 些 方法 具有 下 述 缺 点 :如 果 x 具有 高 维 , 那 
么 匹配 个 数 变 得 非常 少 。 在 这 种 情况 下 ,基于 纯 量 值 距离 的 匹配 是 引 人 注 目的 。 
前 面 已 讨论 的 倾向 得 分 匹配 (propensity score matching) 正 是 此 类 方法 。 

最 近邻 匹配 与 核 匹 配 还 能 用 倾向 得 分 加 以 定义 。 例 如 ,对 最 近邻 匹配 来 说 ,可 
将 其 匹配 定义 为 A; (p(x)) 二 {pp; Imin | p;—p; | }.. 

分 层 匹 配 或 区 间 匹 配 (stratification or interval matching) 是 基于 对 区 间 上 倾向 
得 分 变化 范围 加 以 分 割 ,使 每 个 区 间 内 的 已 处 理 单元 与 对 照 单元 就 平均 水 平 而 言 
拥有 相同 倾 回 得 分 。 人 们 能 使 用 由 计算 倾向 得 分 的 算法 识别 的 相同 块 。 然 后 , 计 
算 已 处 理 组 与 对 照 组 的 平均 结果 之 间 的 差异 。ATET 是 这 些 差异 的 加 权 平 均 ,其 
权 数 可 利用 已 处 理 单位 在 各 种 不 同 块 之 间 的 分 布 来 确定 。 这 种 方法 的 缺点 之 一 
是 , 它 丢 奔 了 块 中 缺乏 的 已 处 理 单位 或 对 照 单 元 中 的 观测 值 。 

用 5 表示 在 倾 辐 得 分 区 间 上 定义 的 块 。 于 是 ,将 第 5 块 内 的 处 理 效 应 定义 成 .; 

ATET = (ND > Yu 一 (NE Yo Yo 


iE Lb) jE 1) 


其 中 ,1(5) 表 示 块 中 的 单位 集合 ,NN。 表示 第 5 块 内 已 处 理 单位 的 个 数 ,而 Ns 表示 
第 5 块 内 控制 单位 的 个 数 。 然 后 ,将 基于 层 的 处 理 效 应 定义 成 . 


B 
ATETs = DIATET; x | 5 D,/ SD, | (25. 43) 
p= 二] iE 1p) 
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其 中 , 插 号 内 的 项 表示 对 应 于 已 处 理 单 元 的 部 分 所 给 出 的 每 一 块 的 权 数 ,这 里 ,B 
在 半径 匹配 Cradius matching) 中 ,集合 A (p(x)) 王 (pj;| |p; 一 pj; 二 7r} 是 建 
立 在 倾向 得 分 的 基础 上 。 这 意味 着 ,含有 估计 倾向 得 分 落 和 半径 之 间 的 所 有 对 照 
案例 都 匹配 到 第 ; 个 已 处 理 案例 。 
一 旦 假定 交 赤 条 件 0 二 p (x) 二 1, 就 能 用 p(x) 表 示 ATE 与 ATET。 两 个 重要 
结论 是 : 


(D— p(x))y | 

ATE Ee es C1— px)) (25. 44) 
(D— p(xX))y | - 

ATET E| BD (25. 45) 


第 二 个 结论 归功 于 德 赫 贰 (Dehejia,，1997)。 
这 些 结论 的 推导 如 下 : 
y =(1—D) yo Dy 
一 十 有 PC 一)， 
(D— p(x)) y=D— p(x) Cyot Dy yo)) 
—Dy— px) yo — DPp(X) yi DPp(X) Yo 
~—Dyi— px) (1—D)yo — Dp(X)Yy! (25. 46) 


其 次 , 取 期 望 , 并 注意 到 ,ELD|x 一 户 x)] ,我 们 得 到 : 


E[(D— px))y|x)=px) Ey)— p(x) (1— px) EL yo J—p’ (xX) El y | (25. 47) 
~—p(xE[y—p x) yj— px — px)) ELYyo) 
—p(x) (1— px) Ey yo 


由 此 可 得 : 
(D— p(X))y | 
ATE= Ey» ET 
为 了 推导 德 薪 页 络 论 ,有 : 
PY | 加 
El EL p(x) EL (xX) — po (Xx) | (25. 48) 


= ELD(Yy Yo ) | 
=~E[D(y— yo)|D=1]Pr|LD=1] 


其 中 ,第 一 行 是 由 式 (25. 47) 得 到 ,第 二 行 是 由 条 件 独立 性 假设 得 出 的 ,而 最 后 行 含 
有 期 望 的 表达 式 作 为 边缘 期 望 与 条 件 期 望 的 积 ,这 蕴含 者 : 


_ElLD(yi— vo) 
AITLI PFD=1] 1 


利用 式 (25. 44) 与 式 (25. 45) ,建立 在 容量 为 N 的 样本 基础 上 的 一 致 估计 
量 是 ， 
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1 NY | (D,— px;))y; | 
ATE 一 一 > 一 一 一 一 一 一 一 一 25. 
NE Lp ) 1 — Pox,)) 0 49) 
一 ] 开刀 2 | 
ATET 一 A D; A 25., 5o0 
(之 ) 2 N (1— p(x)) . 


其 中 , (CN!'2;-1D;) 表 示 PrLD 一 1 的 一 致 佑 计量 。 
25.4.5 其 于 Xx 与 Pp (x) 的 ATET 方差 
在 25. 2 节 给 出 的 识别 性 假设 下 ,A 与 Arm 可 被 定义 成 


A = -DLy — ELyolD = 0,x = x]] 


T 


1 ye 
Ni Ly yo 


{D=1} 


Au = pap [y1; — E[y | D = 0,p(x) = p(x)]] 


AR >， [一 人 wij 0. | 
Tie {D=1) jEA p(x) 
其 中 ,i 表示 已 处 理 组 的 下 标 ,%w;; 一 1/ Ne; 表示 关 于 第 i 个 已 处 理 组 的 比较 组 中 案 
例 个 数 。 这 两 个 均 是 ATET,， El y; Yo |D=] ,xj 的 一 致 佑 计量 ,第 一 个 建立 在 入 
基础 上 ,而 第 二 个 则 建立 在 p(x) 基 础 上 。 一 个 实际 问题 是 ,就 有 效 性 而 论 ,依据 倾 
癌 得 分 对 差 进行 调整 是 否 比 利 用 x 对 差 进 行 调 整 更 好 些 。 哈 恩 CHahn，1998)、 蔡 
克 曼 等 人 (Heckman et al. ，1998) 以 及 其 他 一 些 人 曾 证 明 , 即 使 我 们 假定 p(x;) 是 
已 类 的 ,但 根据 估计 量 渐 近 方差 来 看 ,对 这 两 个 估计 量 进 行 排序 就 会 含糊 不 清 , 在 
观测 研究 时 将 不 会 出 现 此 种 情况 。 
对 上 述 两 种 情况 的 渐 近 方差 ,可 写成 如 下 形式 ，: 


V[A:]=E[LV[y |D=1,xj|D=1J]+V[E[y—y |D=1,x1|D=1],， 
VLAyw |=E[V[Ly |D=1,p(¥) |D=1]+V[E[Ly:—y,|D=1 ,p(x) ||D=1] 


其 中 ,我 们 运用 了 由 A. 8 节 给 出 的 方差 分 解 结论 。 通 常 ,与 p(x) 相 比 ,x 是 一 个 更 
好 的 预测 式 ,这 蕴含 者 ， 


El VLy1D=1,x1|D=1]<E[LVIy |D=1,p(x)]|D=1] 
VELy Yo 1D= l ,X | | 六 一 1 之 VLELy Yo 1D= l ,p(X) | |D=11 
因为 以 x 为 条 件 所 损失 的 信息 比 以 p(x) 为 条 件 的 要 少 一 些 , 它 是 x 的 一 个 特定 函 
数 。 因 而 ,第 二 个 比较 有 利于 倾向 得 分 方法 ,而 第 一 个 比较 有 利于 对 x 的 使 用 ,而 
不 是 对 p(x) 的 使 用 ， 


实施 ATET 计算 的 一 个 有 用 的 实践 指南 与 计算 机 程序 是 由 贝克 尔 和 市 野 
(Becker and lchino，2002) 提 供 的 ，。 
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25.5 差异 中 差分 全 计量 


第 2 章 与 第 3 章 曾 讨论 过 自然 实验 (natural experiment) 或 准 实验 (quasi-ex- 
periment) 的 设置 背景 ,其 中 , 处理 变量 经 受 了 能 被 看 成 处 理 变 量 中 外 生变 动 的 变 
化 。 已 处 理 组 能 与 未 处 理 的 比较 组 加 以 比较 。 

在 一 些 情况 下 ,人 们 拥有 实验 前 后 的 已 处 理 组 与 比较 (控制 ) 组 方面 的 数据 。 
然后 ,对 于 第 1 个 已 处 理 案例 来 说 ,其 结果 变化 可 由 [yi Yi 1D; 一 1 测算 ,而 关于 未 
DD [yi Vib 1D;, 二 0 测算 。 于 是 ， 差异 中 差分 测算 [Ly Vi 

Di 三 1] 一 [Lyi 一 yw 1Di 二 01, 其 中 ,下 标 a 与 2 分 别 表示 实验 发 生 “ 以 后 ”与 “之 
前 ”, 构 成 了 处 理 效 应 估计 的 基础 。 这 一 方法 已 在 3.4.2 节 与 22. 6 节 介 绍 过 。 

考虑 含有 固定 效应 $; 与 漂移 项 6, 的 模型 ,其 中 ,人 处理 前 结 采 与 处 理 后 结 采 分 

别 由 


yi 一 让 十 人 十 si (25. 51) 
yi 一 ao 十 《25. 52) 
给 出 ,因此 : 
yi = (1—D;) yi,o tT Di yi,l (25. 9593) 
=$; 0, TaD; te 


上 上 述 式 子 是 关于 :上 一 c, 的 ; 式 (25. 51) 是 没有 接受 处 理 组 的 ,而 式 (25. 52) 是 
接受 处 理 组 的 。 一 旦 利用 “之 前 ”与 “以 后 ”公式 ,就 得 出 处 理 效 应 ， 


位 一 下 L vy; Vi | 万, =]1 |—Ely Yi |D,, 一 0 | (25. 04) 
= {FE[ ys | Di 一 1 ]—ElLy:; |D: =0])} 
| {EL Yio | 万。 一 ]j 一 了 ya 1D; 一 0 ) 


其 中 ,进行 差分 步骤 去 择 了 固定 效应 a 与 漂移 6,。 

存在 一 些 可 供 选 择 的 进行 差分 方法 。 一 种 可 选择 的 方法 是 ,通过 问 归 和 直接 控 
制 处 理 组 与 对 照 组 之 间 的 处 理 前 结果 。 例 如 ,用 XB 十 yy 代替 式 (25. 51) 中 的 $;， 
得 出 : 


Yia0 = BT yy 十 人 十 ein (25. 905) 
yiad =xXB + YY tTaDi 十 ea 


对 a 的 估计 可 通过 处 理 后 结 采 对 常 值 、 处 理 前 结果 x; 以 及 D; 进行 回归 构造 出 来 。 
对 作为 因果 参数 a 进行 解释 依赖 于 下 述 假设 :一 旦 控制 x 与 % 之 后 ,处 理 效应 完 
全 说 明了 已 处 理 组 与 对 照 组 之 间 的 处 理 后 差异 。 国 定 效应 是 由 线性 函数 形式 给 出 
的 ,而 匹配 策略 则 可 以 建立 在 弱 假 设 的 基础 上 。 

实际 上 ,前 面 结论 建立 在 准 实验 数据 基础 上 。 例 如 ,将 一 个 州 有 某 一 法 律 与 不 
同 州 具 有 不 同 法律 的 人 们 进行 比较 ,而 且 使 用 州 效 应 的 控制 函数 。 在 实验 之 前 ,就 
要 增加 新 的 数据 。 借 助 于 两 个 州 具有 相同 漂移 项 的 假设 ， 我 们 能 应 用 差 并 中 差分 
方法 剔除 州 效 应 ,否则 , 束 需 要 控制 晒 数 。 
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25.6 回归 非 连续 设计 


有 时 ,对 处 理 效应 的 识别 或 者 借助 于 自然 实验 或 者 利用 在 准 实验 育 景 下 生成 
的 数据 使 其 便利 。 非 连续 回归 (regression discontinuity， 记 为 RD, 又 称 为 回归 间断 
点 方法 ) 设 计 是 准 实验 设计 的 一 个 例子 ,其 中 ,接收 处 理 的 概率 是 一 个 或 多 个 基本 
变量 的 非 连续 函数 。 这 种 设计 是 在 管理 或 组 织 控制 为 处 理 的 直接 原因 情况 下 而 产 
生 的 。 例 如 , 安 格 里 斯 特 和 拉 维 (Angrist and Lavy，1999) 曾 研究 了 班级 大 小 对 学 
生 分 数 的 效应 ,他 们 利用 在 “ 迈 蒙 尼 德 斯 规则 ”(Maimonides Rule) 作 用 下 生成 的 数 
据 , 即 约定 当 分 数 达 到 某 个 特定 门限 水 平时 ,班级 要 分 班 。 范 德 死 夯 (YVan der 
Klaauw，2003) 估 计 了 提供 资金 援助 对 学 生 决 策 上 大 学 的 效应 ,利用 了 由 管理 规则 
上 非 连续 所 提供 的 识别 信息 ,管理 规则 与 援助 学 生 的 SAT 分 数 以 及 平均 成 绩 
(grade point average) 有 关 。 这 些 经 济 计量 应 用 的 先驱 是 西 斯 尔 思 韦 特 和 其 页 外 
(Thistlethwaite and Campbell，1960) ,他 们 分 析 了 学 生 对 职业 意愿 的 影 啊 ,利用 当 
学 生 考 试 分 数 大 于 某 个 分 值 门 限时 ,才能 给 予 奖 金 的 事实 ,也 可 参见 特 罗 布 姆 
(Trochim,1984) 。 这 里 的 研究 遵循 范 德 克 劳 (Van der Klaauw，2003) 的 线索 。 


25. 6. 1 大 达 缕 人 处 理 指 派 机 制 


在 RD 设计 情况 下 ,选择 规则 方面 存在 额外 信息 :众所周知 ,处 理 指派 机 制 ( 至 
少 部 分 地 ) 依 赖 于 与 给 定 门限 或 截止 分 数 有 关 的 观测 连续 变量 的 值 ,在 这 种 方式 
下 ,相对 应 的 得 到 已 处 理 (倾向 得 分 ) 的 概率 是 此 变量 在 截止 分 数 上 的 非 连 续 消 数 。 
图 25. 1 阐明 了 由 RD 设计 生成 的 样本 。 


0 非 连续 回归 例子 
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25. 1 非 连续 回归 设计 例子 


在 最 简单 RD 设计 中 ,所谓 的 标准 RD 设计 (sharp RD design) ,是 个 体 唯 一 地 
在 观测 连续 测量 S 的 基础 上 被 指派 到 处 理 组 与 对 照 组 ,其 中 ,S 称 为 选择 或 指派 变 
量 。 落 人 明显 断 开 S 下 面 的 那些 不 接收 处 理 , 并 且 构 成 对 照 组 ,而 位 于 断 开 上 面 的 
那些 则 接收 处 理 (D 王 1)。 也 就 是 说 ,处 理 指派 是 通过 一 个 已 知 的 且 测 量 的 确定 性 


王国 硬 评 本 时 叶 一 严 一 一 


决策 规则 而 发 生 : D; 二 1[S; 宇 S]。 如 图 25. 2 所 示 ,标准 RD 设计 以 实 线 画 出 [参见 
汇 德 殉 劳 (Van der Klaauw,2003) ]。 


标准 RD 设计 与 模糊 RD 设计 


1jS] 


倾向 得 分 Pr[D 
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25.2 非 连续 回归 设计 ;标准 设计 ( 实 线 ) 中 的 处 理 指 派 与 模糊 设计 (虚线 ) 中 的 处 理 指 派 。 


在 标准 RD 设计 中 : 
E[ ulD,S]=ELu|S)] (25. 56) 
其 中 ,u 表示 结果 方程 中 的 误差 。 因 为 S$ 是 DD 的 唯一 系统 行列 式 , 所 以 S 将 捕获 DD 
到 与 x 之 间 的 任何 相关 性 。 


对 于 D; 二 D(CS;) 二 1LS; 之 Sj 来 说 ,D, 与 w 之 间 的 相依 性 会 导致 OLS 产生 的 
非 一 致 估计 量 。 如 同 前 面 提 及 的 ,在 此 情况 下 ,估计 处 理 效 应 的 一 种 方法 是 , 设 定 
并 包括 条 件 均 值 旺 数 E[u1D,S] 作为 结果 方程 中 的 “控制 函数 ”。 因 而 : 


yi 一 及 TaD.,;+k(S;) 十 gs， (29. 57 ) 
其 中 ,一 yw 一 EL[Ly | Di,S;]。 如 果 &(S) 得 以 正确 设 定 , 该 回归 将 会 一 致 地 估计 


出 a。 

当 (S) 是 线性 的 时 候 ,a 将 通过 在 断 开 点 处 两 条 线性 平行 回归 线 之 间 的 距离 
加 以 估计 ,在 此 情况 下 , 它 就 等 于 两 个 截 距 之 差 。 若 控制 函数 是 线性 的 , 则 它 是 共 
同 处 理 效应 的 无 偏 估 计 。 

在 更 一 般 的 可 变 处 理 效应 情况 下 , 的 系数 表示 成 ELa;1S ] 或 者 25. 7. 1 节 将 
讨论 的 局 部 LATE, 其 中 ,k(S) 表 示 了 LulSjT(CELailS] 一 ELes1S])1LS>S] 的 设 
定 , 这 里 ,1LS 之 5] 王 1, 当 括号 中 的 条 件 得 到 满足 时 。 对 A(CS) 的 不 正确 设 定 会 导致 
非 一 致 性 ,因此 ,可 能 就 要 尝试 半 参 数 设 定 , 例 如 ,上 CS) 一 二 -17S ,其 中 ,J 可 能 通 
过 适当 方法 来 决定 。 

变量 S 可 能 与 结果 > 有 关 , 甚 至 当 两 个 变量 之 间 并 不 存在 因果 联系 时 ,这 会 自 
动 引 起 (y,S) 是 相关 的 。 这 与 可 避免 此 类 相依 性 的 随机 指派 形成 了 对 比 。 

然而 ,随机 指派 除了 处 理 接 收 之 外 ,会 使 处 理 组 与 对 照 组 在 一 些 方面 产生 雷同 ， 
标准 RD 设计 至 少 在 关于 S 值 上 使 处 理 组 与 对 照 组 产生 差异 。 这 违背 了 罗 森 鲍 姆 和 
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鲁 宇 (Rosenbaum and Rubin，1983) 的 “ 强 可 忽略 性 ”(strong ipgnorability) 假 设 , 它 还 要 
求 交 登 条 件 ,0 和 PrLD=11Sj 一 1 ,而 在 标准 RD 设计 模型 中 ,PrLD=11SjELo,1]。 


25.6.2 在 RD 下 计 下 的 识别 与 储 评 


主要 直觉 是 ,在 截止 点 很 小 邻 域内 的 个 体 样 本 将 类 似 于 在 截止 点 处 的 随机 实 
验 ,因为 它们 基本 上 具有 相同 S 值 。 刚 好 在 截止 点 下 面 的 那些 个 体 ,预计 非常 类 似 


面 的 那些 个 体 平均 值 y 进行 比较 ,将 产生 平均 处 理 效 应 的 估计 值 。 

特别 是 ,如 果 指 派 变量 自身 与 以 处 理 状况 为 条 件 的 结果 变量 有 关 时 , 增 大 截止 
氮 附 近 的 区 间 将 会 使 处 理 效 应 的 估计 产生 偏差 。 若 能 对 这 种 关系 的 函数 形式 做 出 
假设 , 则 可 使 用 更 多 观测 值 ,同时 从 截止 点 上 外 推 平衡 随机 化 实验 所 揭示 的 内 容 。 
这 种 双重 外 推 , 连 同 在 截止 点 附近 的 “随机 化 实验 ”的 解释 , 正 是 支持 非 连续 性 回归 
分 析 的 主要 思想 [ 范 德 克 劳 (Van der Klaauw，2003 ,第 1 258 页 )]， 

可 以 发 现 , 在 这 种 RD 设计 中 ,有 : 

limElL yl!SJ— limELy|SJ=at limElulS] limELu|S]} (25. 58) 


一 种 更 正 陈 假定 是 ,在 不 存在 处 理 情况 下 ,对 在 $ 附近 很 小 区 间 里 具有 相似 平 
均 绪 采 的 一 些 个 体 设 定 如 下 : 

假设 A1. 条 件 均值 函数 ELzlSj] 在 3 处 是 连续 的 。 

假设 A2. 均值 处 理 效 应 晴 数 Ela;|1Sj 在 S 人 处 是 右 连续 的 : 


yi=PB HaD;+k(S,) +e, (25. 59) 
其 中 ,e; 二 y; 一 ELyi|1D;,S;]。 于 是 , 式 (25. 58) 中 的 结果 成 立 。 
25. 6.3 模糊 RD 设计 


这 里 ,处理 指 派 依 赖 于 以 随机 方式 所 选择 的 变量 。 可 以 知道 倾向 得 分 PrLD= 
1|1S 之 间 的 关系 ,在 S$ 处 具有 非 连续 性 。 与 截止 值 有 关 的 错误 指派 的 一 个 可 能 后 
来 是 模糊 RD, 在 截止 点 附近 的 S 值 既 出 现在 处 理 组 中 ,又 出 现在 对 照 组 中 。 和 否则 ， 
指 庶 可 建立 在 被 处 理 管理 者 观测 到 而 项 目 评估 者 观测 不 到 的 额外 变量 基础 上 。 因 
此 ,与 标准 RD 设计 有 关 , 模 糊 RD 设计 (fuzzy RD design) 选 择 既 依赖 于 可 观测 的 
又 依赖 于 不 可 观测 的 成 分 。 如 图 25. 2 所 示 ,模糊 RD 设计 已 用 虚线 夯 出 。 

为 了 识别 在 Al 假设 下 的 处 理 效应 ,还 要 探讨 选择 规则 的 非 连续 性 。 知 
Elu|Sj] 在 S 处 是 连续 的 , 则 limsysELy|S] 一 limstsELylSj 王 acLlimsysELD1S] 一 
limst+sELD|S1]。 因 此 ,处 理 效 应 可 通过 

ED ELS 25, 60) 

来 识别 ,其 中 ,分 母 limsysELD|Sj 一 limst+sELD1Sj 关 0, 因 为 已 知 ELDISj] 在 S 处 
有 具有 非 连续 性 。 

在 异 方差 处 理 啊 应 (heterogeneous treatment) 的 情况 下 ,我 们 需要 一 些 额 外 
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Ue 


假设 。 
假设 A2  . 平均 处 理 效应 函数 ELai|Sj 在 S 处 是 连续 的 。 
假设 A3. D; 与 在 S 附近 以 S 为 条 件 的 a 是 独立 的 : 


六 一 8 十 aELD; | S Tk(S;) +e; 《20.01) 
其 中 ,€; 二 y;— Ely, | 已， , S, 。 而 k(S;) 表 示 对 El u; 1S; | 的 设 定 形式 。 
25. 6. 4 两 阶段 舍 放 最 


当 Cov|LD,wj 关 0 时 ,OLS 回归 将 产生 有 偶 倚 估计 值 。 不 过 ,下 述 情形 能 学 致 


yi 一 B 十 ecELD,|S | 十 RCSi) 十 e (25. 62) 


其 中 ‘Ei — yi — Ely; | Si ,而 CS ) 表 示 对 ELa， | S; 的 设 定形 式 。 
步骤 1: 将 模糊 RD 设计 的 倾向 得 分 设 定 成 : 


ELD,|S ]= f(S;)+y 1LS; 之 9 (25. 63) 


其 中 ,f(S;) 表 示 S 的 某 个 连续 晴 数 , 它 在 3 处 是 连续 的 。 通 过 对 了 的 函数 形式 加 
以 设 定 ( 或 者 以 半 参 数 形式 或 非 参 数 形式 估计 用 能 估计 出 7Y, 倾 向 得 分 也 数 具有 在 
S 处 的 非 连 续 性 。 

步骤 2: 然后 ,用 ELD;|S; | 二 PrLD; 二 1|S; 的 第 一 阶段 估计 值 代 蔡 D; ,就 可 以 
估计 控制 增 广 琐 数 结 果 方 程 ; 此 估计 值 在 S 处 是 非 连续 的 ,但 所 包括 的 关于 &(S) 
的 控制 函数 在 S 中 S 处 是 连续 的 。 在 对 f(S;) 与 &(S;) 的 正确 设 定 下 ,两 阶段 方法 
是 一 致 的 。 


25.7 工具 变量 法 


在 最 近 几 年 ,工具 变量 法 作为 一 种 MLE 和 其 他 有 说 服 力 的 参数 方法 的 选择 ， 
得 到 了 强劲 的 发 展 与 支持 [ 安 格 里 斯 特 . 英 们 斯 和 重 宾 (Angrist，Imbens，and 
Rubin，1996) ]。 在 基于 不 可 观测 成 分 选择 模型 方面 ,这 种 识别 策略 是 引 人 注 目的 
(参见 25. 3. 4 节 )。 在 许多 应 用 中 ,这 类 模型 是 由 连续 结果 变量 的 线性 方程 构成 
的 ,而 连续 结果 变量 的 条 件 均值 及 方差 结构 均 是 设 定 的 ,没有 任何 额外 的 分 布 假 
设 。 一 种 重要 情况 是 ,连续 结果 依赖 于 回归 元 x 问 量 以 及 表示 处 理 参 与 新 决 案 的 
单个 内 生 处 理 ( 虚 拟 ) 变 量 (D) 。 称 这 一 方程 为 参与 或 选择 方程 。 在 更 一 般 设 置 背 
景 下 ,可 能 拥有 受 限 因 变 量 或 离散 结果 ,也 可 能 存在 多 重 处 理 变 量 。 

下 面 的 讨论 与 本 书 中 几 个 地 方 的 及 估计 内 容 相 交叉 ,同时 也 与 选择 模型 内 容 
交叉 。F 方 法 允许 我 们 去 发 展 ATE 参数 的 另 一 种 “局 部 ”变形 。 


25.7.1 局 部 ATE (LAET) 


我 们 重新 考察 简单 线性 公式 。 结 果 方 程 是 可 观测 变量 及 参与 指示 变量 的 线性 
商 数 : 
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rr 


y;— x +aD; tu (25. 64) 
同时 ,参与 决策 依赖 于 称 为 工具 的 单个 变量 z: 
D* = yz (25. 65) 
其 中 ,D; 表示 潜 变 量 , 其 可 观测 部 分 D; 是 由 
0， 当 D* 声 0 
生成 的 。 
存在 两 个 假设 : 


1. 存在 一 个 变量 z, 它 出 现在 关于 D 的 方程 中 ,而 不 出 现在 关于 y 的 方程 中 。 
它 可 能 是 连续 的 或 离散 的 ,而 在 特殊 情况 下 , 它 是 二 值 的 。 参 与 方程 中 将 回归 元 x 
排除 掉 是 一 种 简化 。 参 与 方程 存在 的 z 与 由 结果 方程 将 其 同时 排除 , 称 为 排除 性 
约束 (exclusion restriction) 。 这 种 模型 的 结构 与 第 16 章 的 选择 模型 接近 。 
2. Cov|lz,v|=Coviu,z|j==Cov[x,u | 二 0, 以 及 ， 
Cov| D,z |0 


连同 第 1 个 假设 ,此 假设 蕴含 着 y 通过 仅仅 依赖 于 = ,而 DD 以 非 一 般 方式 依赖 于 
z, 这 正如 同 前 面 所 强调 的 。 

在 这 些 假设 下 , 式 (25. 6.4) 的 人 于 售 计 产 生 (B,a) 的 一 致 估计 值 。 设 = 一 z 十 9， 
6 隆 0, 然 后 ,注意 到 ELD|x, D(z) 二 PrLD(z) 二 1j, 同 时 一 旦 取 期 望 ,我 们 得 到 : 


E[y|x, D(z) |=x BaPrL D(z)=1] 
ELy|x, D(z ) |=x BaPrL D(z )=1]| 


在 它们 相 减 之 后 ,得 出 : 
ELyjx，z Jj—E[y]x,z]=al PrL D(z’)=11—PrLD(z)=1]] 


关于 a 求解 此 方程 ,得 到 由 英 伯 斯 和 安 格 里 斯 特 (Imbens and Angrist，1994) 
所 分 析 的 局 部 平均 处 理 效应 (local average treatment effect， 记 为 LATE)， 


ELy|x,z ]— ELyl|x,x)] 
Pr[ D(z’) = 1|1— PriD(z)=1] 


| [ELy|x,z ]— ElLy|lx,z] JdF (x|x € R(x)) 


(29. 67) 


QLATE -一 


sr 
De 


| [PrLD(z) = 本 一 PrLD(z) = 1]]JdF(x|x € RO)) 


El[y|z’ |— Ely|z 
Prl D(z ) = 11— Pri D(z)= 1| 
其 中 ,第 二 行 涉 及 对 x 进行 平均 , 其 支 集 用 R(x) 表示。 当 Pr[D(xz) 一 11] 一 
PrLD(z) 二 1j] 关 0 时 ,这 个 表达 式 定 义 良 好 。 该 表达 式 的 样本 类 似 形 式 是 已 处 理 与 
未 处 理 之 间 的 平均 差 , 被 由 z 变动 引起 的 已 处 理 部 分 变化 去 除 。 这 个 估计 量 就 是 
V 信 计量。 一 旦 利用 评估 计量 的 有 关 渐 近 正 态 性 结论 ,就 能 得 到 LATE 参数 的 置 
信 区 间 。 
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可 以 证 明 ,LATE 中 的 “局 部 ”合格 者 是 正确 的 ,因为 它 测算 了 由 参与 处 理 作 为 
z 变动 而 引起 的 遵从 者 的 处 理 效 应 。 依 赖 于 用 于 估算 处 理 z 的 特定 值 以 及 依赖 于 
所 选取 的 特定 工具 。“ 运 动 者 ”组 可 以 不 是 整个 已 处 理 总 体 的 代表 ,更 不 用 说 整个 
总 体 了 。 因 此 ,LATE 参数 关于 由 工具 变动 而 引起 的 大 政策 变化 后 果 方 面 没 有 任 
何 信息 ,而 工具 变动 有 别 于 那些 在 过 去 所 观测 到 的 情形 。 

对 于 二 值 工具 来 说 ,LATE 与 从 估计 是 等 价 的 ,正如 安 格 里 斯 特等 人 所 证 明 的 
(Angrist et al. ，1996 ,第 447 页 ) 。 如 果 参 与 方程 中 出 现 不 止 一 个 工具 ,因为 存在 
过 度 识别 约束 ,所 以 就 每 个 工具 而 论 , 所 估计 的 LATE 参数 通常 将 是 不 同 的 。 不 
过 ,可 以 构建 一 种 加 权 平 均 。 

当 处 理 效应 不 随 个 体 而 变化 时 ,就 可 应 用 上 述 分 析 。 然 而 , 知 处 理 效应 是 异 计 
性 的 (heterogeneous) , 则 引起 的 变化 存在 着 潜在 的 混淆: 观测 到 的 变化 是 起 因 于 > 
的 变异 ,还 是 由 a 的 差异 而 引起 的 呢 ? 在 异 质 性 下 ,处理 效应 的 特质 成 分 

ui —= uo D(a;(xXi)—alxX;)) 


是 a(xi) 一 a(x;) 的 函数 ,参见 式 (25. 27)。 于 是 ,前 面 的 一 些 假设 并 不 足以 确定 
ATE 或 ATET。 对 此 困难 的 求解 是 加 上 单调 性 假设 (monotonicity assumption) 作 
为 另外 的 识别 条 件 。 这 本 质 上 表明 ,工具 是 以 单调 方式 影响 参与 的 ,所 以 如 采 平 均 
参与 可 能 由 给 定 Z==w 而 非 给 定 QZ 三 > 时 导出 的 ,那么 给 定 Z 一 > 时 的 那些 参与 人 
也 必 是 给 定 Z = 也 时 的 参与 人 。 


25.7.2 与 其 他 测量 的 关系 


a 的 人 估计 量 与 利用 两 阶段 最 小 二 乘法 所 估计 出 的 值 一 样 ,在 两 阶段 最 小 二 
乘法 中 ,首先 估计 接收 处 理 的 概率 EL[D==1|x,zj, 然 后 实施 结果 与 拟 合 概率 的 回 
归 ; 当然 假定 处 理 效应 是 可 加 的 。 考 察 玉 估计 量 的 特殊 情况 ,其 中 ,x 表示 纯 量 且 
等 于 1, 而 z 表示 纯 量 虚拟 变量 , 它 刻 画 了 参与 处 理 的 合格 性 ,zx 二 1 给 含 着 合格 性 ， 
而 一 0 蕴含 着 不 合格 性 。 

我 们 将 总 体 分 成 四 种 类 型 :遵从 者 (compliers)(C) ,总 是 接受 者 Calways-takers) 
(A).、 永 不 接收 者 (never-takers)(N) ,以 及 违抗 者 (defiers) (D)。 遵从 者 因为 其 是 合 
格 的 而 接收 处 理 , 总 是 接受 者 是 指 不 管 其 是 否 合格 而 接收 处 理 ; 令 不 接收 者 是 指 不 
管 其 合格 性 如 何 拒绝 处 理 , 违 抗 者 是 指 其 合格 却 拒绝 处 理 或 者 不 合格 却 接收 处 理 。 
倘若 不 存在 违抗 者 , 则 只 存在 三 种 类 型 。 

处 理 效应 的 沃 尔 德 估 计量 (Wald estimator) 9 由 : 
Ely;|z;=1]—Ely; |z; 二 0 
E[ D., |z;=1|— ELD:; |z;=0| 
定义 ,其 中 ,分 子 被 表述 成 对 三 种 类 型 处 理 效应 的 加 权 平 均 ,其 权 数 等 于 成 为 每 一 
类 型 的 概率 ,也 就 是 说 : 

PrLCj (ELy 过 一 1 C] 一 下 | y， [xz 一 0 C]) 
十 PrLAj] (ELy， zi; 一] ,A |—Ely. ] 2 一 ,A |) 
+Pr[N]{ELy;|z;=1, NJ—ELy:;|z;=0,Nj) 
=Pr[C]{E[y; |z;=1,C]— ElLy;|z;=0,C)]} 


TEwaip = (25. 68) 
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最 后 一 行 结 果 之 所 以 成 立 , 是 因为 对 应 于 总 是 接收 者 与 永 不 接收 者 的 项 重 等 于 0。 
式 (25. 68) 的 分 母 遵 从 的 概率 为 PrLC]。 因 此 ,有 : 


TEwap = Ely., | z; 一 1] ,CI— EL ~,,; [zi 二 0,C] 《25. 09 ) 


如 果 将 TEwAp 与 LATE 测量 进行 比较 ,可 以 发 现 ,LATE 是 关于 那些 处 于 参与 边 
绿 的 子 组 的 处 理 效 应 的 测量 ,表示 成 遵从 者 。 

在 实证 经 济 应 用 中 ,边际 影响 是 由 连续 变量 变化 引起 的 ,这 由 偏 导数 来 测算 ， 
从 而 很 好 地 得 出 边际 影响 ,而 当 原 因 变 量变 化 是 离散 的 时 候 ,其 测算 由 离散 类 型 代 
罕 。 因 而 ,以 x 为 条 件 的 边际 处 理 效 应 (marginal treatment effect， 记 为 MTE) 测 
量 被 定义 成 ， 


DEL y | X,Z | 
aPr[ D=1 | 入 Z | 7 一 = 


严 元 曼 和 维特 拉 西 尔 (Heckman and Vytlacil，2002) 已 经 证 明 , ATE、.ATET 
以 及 LATE 都 是 MTE 在 Z 支 集 的 不 何 子 集 或 子 总 体 上 取 值 的 平均 值 。ATE 是 
MTE 在 z 的 所 有 支 集 上 的 期 望 值 ,包括 参与 率 为 0 或 1 的 情形 。ATET 排除 掉 没 
有 出 现 参 与 的 z 的 支 集 。LATE 是 MTE 在 参与 率 不 同 的 z 区 间 上 的 平均 ， 


25.7.3 舍 有 蜡 质 性 处 理 效 应 模型 中 的 估计 


现在 ,我 们 考察 允许 基于 不 可 观测 成 分 选择 与 异 质 性 处 理 效 应 的 模型 。 这 一 
内 容 是 含有 内 生 处 出 变量 的 线性 模型 ,内 生 处 理 变 量 的 系数 是 随机 的 ;参见 比 约克 
隆 和 莫非 特 (Bj6rklund and Moffitt，1987) 。 这 类 模型 是 由 处 理 效 应 经 历 已 处 理 
中 不 是 常 从 而 激发 的 ,伍德 里 奇 (Wooldridge，1997) 与 赫 克 曼 和 维特 拉 西 尔 
(Heckman and Vytlacil|，1998) 闸 对 此 研究 过 。 

我 们 将 该 模型 写成 含有 结果 变量 六 的 联 立方 程 模型 ,其 中 ,yy 依赖 于 处 理 变 
量 yz:。 为 了 简单 起 见 , 处 理 变量 w 采用 连续 的 。 给 定 工具 z 与 外 生变 量 x; ,该 模 
型 如 下 : 


MIE= (45. 70) 


yi= (atv;) yt xB 十 ei (25.71) 
a YY; 二 x;B1 Te; 二 vy; 
= vy 十 wyz 十 XiB 十 ze 

yzi = 7zit xX, 二 (25. 72) 


其 中 » TWiT—E; TU;(Y2i— yz) .1 关于 2 不 化 的 边际 响应 是 (a 十 vw) ’ 对 不 同 个 体 来 
说 ,该 值 是 变动 的 ,因而 允许 出 现 异 质 性 处 理 效应 (heterogeneous treatment effect) 。 
假定 El e; | x ,2; | = El wv; |x; ,2; 一 0。 于 是 ,ELei; 十 ziysi |xi; ,Yaij 一 0, 而 VLe; 十 
viyzi1Xi，yzij 依 赖 于 x, 从 而 是 异 质 性 的 。 另 外 , (a， Bi) 的 最 小 二 乘法 估计 量 是 一 
致 的 ,但 不 是 有 效 的 。 这 可 由 yz 的 假定 外 生性 得 到 。 
其 次 ,考察 处 理 变量 是 内 生 的 情况 。 做 出 下 述 假设 : 


Ele. | X: ,Zi |— ELy, ] » , zi; |=E| wv | xX; ,>; | 二 0 (25., 73) 
Ele: | x, ,Zi | 二 og 3 Elw | x; ,zi |] 一 到; EL |X. ,Zi | 二 07 (25. 74) 
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内 生性 是 通过 允许 wv 与 7 之 间 相 关 而 引起 的 。 特 别 地 ,假定 ELwi | »w] 二 pw ,如 果 
(v; 功 是 二 元 正 态 分 布 ,那么 该 假定 成 立 。 在 这 些 假设 下 ,z 是 有 效 工具 ,而 x 是 外 
生 的 。 从 方程 中 排除 x 是 识别 约束 。 因 此 , 带 有 工具 (z,x) 的 式 (25. 71) 工 具 变 
量 方程 是 一 个 目 然 估 计量。 然而 ,注意 到 ,一 致 估计 的 条 件 是 ELzw |x ,zj 王 0。 由 
假设 知 ,w; 的 第 一 个 分 量 e; 与 z; 是 不 相关 的 ; 乍 看 起 来 , w 的 第 二 个 分 量 
vi(yz 一 32) 好 像 与 z; 是 相关 的 。 要 是 这 样 ,KW 估计 量 就 是 一 致 的 。 不 过 ,可 以 证 
明 , 在 上 述 开 假设 下 ,估计 量 是 一 致 的 。 在 论证 时 , 其 关键 步骤 涉及 证 明 
El vw;y;. ] zi |— El viy2: | ,伍德 里 奇 (Wooldridge， 1997) 通 过 运用 期 望 迭 代 和 定律 ， 已 
经 得 出 一 个 结果 ;因而 : 
E[ vy; |z|= ELE[vy; |z, 7 |z | (25.75) 
=ELyElv 之 ,7 |zj=E [pny2 [zj] 
/ 一 poEL7 |z|=p07 =ELv y;] 
给 定 这 里 的 一 些 假设 ,虽然 人 估计 量 是 一 致 的 ,但 它 因 为 异 方差 误差 而 不 是 有 
效 的 。 因 此 ,应 该 使 用 异 方差 一 致 的 标准 误差 。 最 后 , 当 处 理 响 应 是 异 方 差 的 ,我 
们 没有 解决 估计 处 理 效 应 对 工具 选择 的 敏感 性 问题 。 


25.7.4 非 线 性 模型 的 内 生 人 处 理 


当 职 业 培 训 项 目的 结果 是 就 业 而 不 是 工资 ,或 者 是 工作 安排 持续 期 限时 ,考察 
25. 3 节 写 25.7 节 中 的 分 析 会 如 何 变化 。 一 种 可 供 选 择 的 方式 是 ,假定 处 理 后 的 
一 个 显著 比例 仍 是 失业 的 且 工 资 为 0, 因 此 ,样本 是 一 个 具有 0 与 正 收 入 的 那些 人 
的 混合 形式 ,因而 是 非 正 态 的 。 为 了 处 理 非 线 性 与 非 正 态 性 ,人 们 应 该 怎样 推广 前 
面 方 法 呢 ? 

对 含有 选择 的 处 理 与 结果 的 非 线 性 、 非 正 态 模 型 进行 估计 ,是 微观 经 济 计量 学 
中 常常 出 现 的 一 个 问题 。 如 同 线性 模型 一 样 ,这 类 模型 的 主要 焦点 在 于 内 生 处 理 
变量 对 经 济 的 效应 。 模 型 设 定 由 带 有 因果 结构 解释 的 结果 方程 与 对 处 理 变 量 生 成 
过 程 建 模 的 其 他 一 些 方程 组 成 。 就 此 问题 而 言 ,存在 两 种 主要 方法 :一 种 是 参数 方 
法 ,依赖 于 基于 似 然 的 (包括 贝 叶 斯 ) 方 法 , 胃 一 种 是 半 参 数 方法 ,依赖 于 GMM 或 
者 线性 化 的 于 方法 。 

典型 设置 背景 可 通过 选取 的 下 述 一 些 例子 来 阐明 。 在 劳动 经 济 学 里 ,宾利 和 
沃克 (Bingley and Walker, 2001) 考 察 了 丈夫 失业 持续 期 限 对 妻子 的 离散 劳动 力 供 
给 选择 的 效应 。 此 处 ,处 理 变量 是 非 人 负 的 且 可 能 删 失 的 或 截取 的 。 皮 特 和 罗 森 淡 
韦 格 (Pitt and Rosenzweig，1990) 研 究 了 内 生 的 幼儿 健康 状况 对 他 们 母亲 的 每 日 
主要 活动 的 效应 ;这 里 处 理 变量 是 离散 的 ,而 结果 是 连续 的 。 卡 拉 斯 科 (Carrasco， 
2001) 考 察 了 分 娩 对 妇女 劳动 力 参与 的 效应 。 在 对 照 结果 模型 与 生育 力 有 关 的 情 
形 下 ,和 集 条 (Jensen，1999) 考 察 了 避孕 药物 , 即 离散 变量 ,对 分 娩 之 间 持 续 期 限 ,也 
就 是 受 限 因 变 量 的 效应 。 奥 尔 条 和 法 卡 斯 (Olsen and Farkas，1989) 人 研究 了 生 护 
子 对 失学 风险 的 效应 。 在 卫生 经 济 学 方面 ,上 朋克 尔 和 泰 尔 扎 (Kenkel and Terza， 
2001) 研 究 了 医生 建议 (离散 的 ) 对 酒 消费 (连续 的 且 非 负 的 ) 效 应 。 高 里 森 卡 拉 和 
淘 (Gowrisankaran and Town，1999) 人 研究 了 选择 医院 对 死 于 医院 风险 的 效应 。 在 
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卫生 经 济 学 中 ,选择 健康 保险 对 健康 保健 使 用 (health care utilization) 的 效应 ,有 时 
馈 测 量 成 消费 变量 ,有 时 被 看 成 是 某 种 特定 服务 类 型 单位 的 数量 计数 ,例如 医生 出 诊 
或 住院 ,这 稼 各 利用 两 部 分 模型 框架 加 以 研究 [ 德 布 和 特 里 维 迪 (Deb and Trivedi， 
1997) ] 以 及 范 ， 奥 费 姆 (van Ophem，2000) 对 家 庭 车 辆 所 有 权 相 对 旅游 次 数 效应 
进行 了 建 模 。 许 多 其 他 例子 也 可 以 引用 。 

这 些 模型 共同 具有 许多 统计 特性 。 第 一 ,处 理 过 程 与 结果 过 程 都 是 非 正 态 的 
及 非 线性 的 :多 项 式 的 .计数 的 .离散 的 或 者 删 失 的 。 第 二 ,在 每 一 种 模型 中 ,处理 
是 内 生 的 。 最 后 ,研究 者 经 常 拥 有 好 的 优先 选择 既 有 处 理 的 又 有 结果 的 特殊 参数 
边际 模型 的 理由 。 然 而 ,从 给 定 边缘 分 布 到 关于 处 理 与 结果 的 联合 模型 的 转变 是 
一 个 基本 步骤 , 当 涉 及 非 正 态 多 变量 分 布 时 ,该 步 又 潜在 地 存在 问题 。 边 缘 模 型 常 
常 没 有 (或 非常 有 约束 性 ) 易 于 处 理 的 多 变量 对 应 形式 (例如 ,计数 与 持续 期 限 模 
型 )。 在 其 他 一 些 模 型 中 ,处 理 与 结果 源 有 自 不 同 统计 族 ( 比 如 ,处 理 是 多 项 式 的 ,而 
缮 果 是 风险 率 ), 所 以 不 存在 解析 形式 上 易 处 理 的 多 变量 分 布 。 由 于 这 一 领域 中 的 
应 用 有 其 特殊 性 质 , 所 以 对 此 专题 不 再 做 任何 进一步 人 研究。 


25.8 例子 :培训 对 工资 的 效应 


国家 支持 工作 (National Supported Work ，NSW ) 示 范 项 目 在 20 世纪 70 年 代 
实施 ,通过 随机 化 实验 来 测算 培训 对 工资 的 效应 ,随机 实验 意 指 对 某 些 个 体 指 派 接 
收 培训 (处 理 组 ) ,而 对 男 外 一 些 指派 不 接收 处 理 ( 对 照 组 )。 于 是 ,培训 效应 能 通过 
直接 比较 处 理 后 的 处 理 组 与 对 照 组 的 样本 均值 来 进行 测算 。 

如 同 第 3 章 曾 讨论 的 ,在 社会 科学 中 随机 化 实验 相对 稀少 。 大 多 数 观 测 样本 
是 使 用 某 些 观 测 到 的 接收 处 理 的 一 些 个 体 , 而 男 一 些 个 体 则 没有 接收 处 理 。 把 已 
处 理 组 与 未 处 理 组 进行 对 比 ,必须 控制 观测 到 的 特征 以 及 可 能 没有 观测 到 特征 方 
面 的 差异 。 

为 了 确定 关于 观测 数据 的 标准 微观 经 济 计 量 方法 的 适宜 性 , 拉 隆 德 (Lalonde， 
1986) 把 NSW 已 处 理 组 的 结果 与 那些 源 自 两 次 国家 调查 (普查 ) 的 对 照 组 进行 对 
比 。 他 获得 的 结果 与 把 NSW 已 处 理 组 与 对 照 组 进行 对 比 的 实验 结果 相差 其 远 ， 
从 而 他 得 出 结论 ,观测 方法 是 靠不住 的 。 

德 赫 村 和 活 赫 拜 (Dehejia and Wahba，1999,2000) 利 用 可 供 选 择 的 匹配 方法 
重新 分 析 了 拉 隆 德 数据 子 集 ,他 们 运用 观测 数据 进行 论证 ,推导 结论 ,这 里 的 观测 
数据 相当 接近 于 来 自 实验 数据 的 那些 情况 。 在 本 节 , 我 们 利用 德 医 机 和 沃 赫 拜 
(Dehejia and Wahba，1999) 的 数据 来 阐明 在 25. 2 一 25. 5 节 介 绍 的 仅仅 控制 对 可 
观测 成 分 进行 选择 的 一 些 方法 的 应 用 。 


25. 8. 1 德 蔡 杭 与 活 恭 拜 数 据 


已 处 理 样本 是 在 1976 一 1977 年 间接 收 培 训 的 185 名 男子 之 一 。 对 照 组 从 
PSID 尚未 退休 的 55 岁 以 下 的 2 490 名 家 性 户主 中 抽取 。 德 芋 届 与 沃 赫 拜 (Dehe- 
jia and Wahba，1999) 称 这 两 个 样本 为 (已 处 理 的 )RE74 子 样本 以 及 (未 处 理 的 ) 
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PSID-1 样本 。 处 理 指示 变量 D 被 定义 成 DD 二 1, 如 果 接 收 培训 (因而 ,观测 值 位 于 
已 处 理 样 本 中 ) ;以 及 DD 二 0, 如 果 没 有 接收 培训 (从 而 ,观测 值 位 于 对 照样 本 中 )。 

重要 变量 的 概括 统计 量 已 由 表 25. 3 给 出 。 已 处 理 组 相当 不 同 于 对 照 组 ,是 与 
小 于 高 中 程序 (71%) 以 及 在 处 理 前 1975 年 失业 (71%%) 不 成 比例 的 黑人 (84%% )。 
对 培训 效应 的 估计 应 控制 这 些 差异 ，。 


表 25.3 培训 影响 :已 处 理 组 与 对 照 组 样本 的 样本 均值 * 


变量 定 义 已 处 理 控制 

AGE 年 龄 25. 82 34. 85 
EDUC 受 教 育 年 数 10. 35 12. 12 
NODEGREE 当 EDUC< 过 12 时 , 则 为 1 0. 71 0. 31 
BLACK 当 民 族 是 黑人 , 则 为 1 0. 84 0. 25 
HISP 当 民 族 是 西班牙 人 , 则 为 1 0. 06 0. 03 
MARR 当 是 已 婚 , 则 为 1 0. 19 0. 87 
U74 当 在 1974 年 失业 , 则 为 1 0. 60 0. 10 
U75 当 在 1975 年 失业 , 则 为 1 0. 71 0. 09 
RE74 1974 年 实际 工资 (1982 年 美元 ) 2 096 19 429 
RE75 1975 年 实际 工资 1 532 19 063 
RE78 1978 年 实际 工资 6 349 21 554 
D 若 控 受 培 训 ( 处 理 ), 则 为 1 1. 00 0. 00 
样本 量 185 2 490 


a 数据 与 德 赫 玉 和 活 赫 拜 (Dehejia and wahba，1999) 的 表 1 相间 。 已 处 理 组 是 NSW 子 样本 的 RE74。 
对 照 组 是 未 退休 的 年 龄 在 55 岁 以 下 男性 家 庭 户 PSID-1 主 样 本 。 处 理发 生 在 1976 一 1977 年 。 


25. 8. 2 ” 榨 制 明 数 方法 


对 培训 对 工资 效应 的 各 种 估计 已 由 表 25. 4 给 出 。 

关注 的 结果 是 人 处理 后 工资 RE78。 一 种 可 行 的 培训 效应 测量 是 ,在 NSW 已 处 
理 与 PSID 控制 个 体 之 间 在 RE78 上 的 平均 差异 ,得 出 估计 值 为 6 349 美元 一 
21 554 美元 二 一 15 205 美元 。 这 称 为 处 理 一 对 照 比 较 (treatment-control compari- 
son) 估 计量 ,因为 它 模 仿 了 实验 背景 下 的 分 析 。 

处 理 一 对 照 比较 估计 量 可 等 价 地 被 计算 ,因为 它 模 仿 了 实验 痛 景 下 所 进行 的 
分 析 。 它 等 价 于 计算 RE78 对 截 距 与 D 进行 OLS 回归 中 的 处 理 标示 , 当 利 用 组 合 
的 处 理 对 照样 本 变量 DD 的 系数 。 

很 大 的 处 理 估 计 值 会 使 人 误 入 歧途 ,因为 它 大 部 分 反映 出 两 个 样本 中 个 体 模 
型 方面 的 差异 。 即 对 照样 本 个 体 没 有 控制 好 。 这 种 差异 能 够 通过 引 和 人 处 理 前 特征 
作为 回归 元 而 得 到 控制 ,并 且 通 过 OLS 估计 : 


RE78; 一 TaD;+tu;, i=l1,*…,2675 (25. 76) 
一 日 遵循 德 赫 贾 和 沃 赫 拜 的 线索 ,把 回归 元 x 设 定 成 截 距 、AGE、AGESQ 、EDUC、 
NODEGREE BLACK HISP RE74 以 及 RE75 时 ,这 就 导致 了 更 小 的 估计 处 理 效 
应 & 二 218 美元 。 此 方法 在 25. 3. 3 节 称 为 控制 郴 数 佑 计量 (control function esti- 


mator) 。 
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25. 8.3 闫 蜡 中 差分 


第 二 种 方法 是 前 后 比较 (before-after comparison) ,考虑 处理 后 工资 RE78 与 
处 理 前 RE75 之 间 的 差异 。 若 利用 已 处 理 组 的 平均 工资 , 则 得 到 差异 佑 计 值 6 349 
美元 一 1 532 美元 二 4 817 美元 。 

这 个 估计 值 可 能 导致 错误 结论 ,因为 它 反映 出 该 时 期 的 所 有 变化 ,诸如 经 济 改 
进而 不 只 是 培训 。 在 25. 5 节 曾 考虑 的 差异 中 差分 估计 量 (difference-in-differences 
estimator) 另 外 计算 对 照 组 中 类 似 的 量 , 即 21 554 美元 一 19 063 美元 二 2 491 美元 ， 
并 利用 这 作为 工资 期 间 相 关 未 处 理 变 化 的 测量 ,所 以 仅仅 因为 处 理 而 随时 间 概 化 
的 是 4 817 美元 一 2 491 美元 二 2 326 美元 。 

可 以 证 明 ,DID 估计 量 等 价 于 对 OLS 回归 : 


RE., 一 上 十 DY78， 十 Ya Da DY8,, xD. 十 妈 ， 9 1 一 ] 9 ”和 2 675 9 i— 5 »/0 
(29.77) 


此 处 ,RE;,x 表 示 处 理 前 时 期 的 工资 ,而 RE 表示 处 理 后 时 期 的 工资 ,因此 ,该 四 
归 是 带 有 5 350 个 工资 观测 值 的 回归 。 指 示 变 量 D78; 在 处 理 后 时 期 为 1, 如果 个 
体位 于 已 处 理 样 本 之 中 ,那么 指示 变量 D; 等 于 1, 而 交叉 项 D78;, XD; 对 于 处 理 后 
时 期 的 已 处 理 个 体 来 说 等 于 1。 

更 一 般 地 , 式 (25. 77) 中 截 距 能 用 xx 来 代替 。 在 此 例子 中 并 不 会 产生 差异 ， 
因为 回归 元 是 时 常 值 的 ,所 LM x 一 xX;。 

这 一 方法 能 用 于 重复 横 截 面 数据 (参见 22. 6. 2 节 ) ,因为 它 不 需要 已 处 理 组 与 
对 照 组 中 的 个 体 在 1975 年 和 1978 年 中 都 是 可 观测 到 的 。 


25. 8.4 简单 颁 向 得 分 位 计 


第 三 种 方法 是 把 已 处 理 个 体 的 结果 RE78 与 RE78 的 反 事 实 预 测 相 对 比 , 如 来 
相同 的 已 处 理 个 体 实 际 上 没有 接收 处 理 。 初 始 15 205 美元 的 处 理 一 对 照 佑 计 是 
一 种 过 分 简化 例子 , 它 用 作对 照 组 (21 554 美元 ) 中 RE78 的 反 事 实 平均 值 。 更 好 
的 反 事 实 能 通过 设 定 回归 模型 来 生成 。 例 如 , 如果 已 处 理 ,回归 (25. 76) 就 设 定 
E[RE78|xj 等 于 xB 十 a ,如 果 未 处 理 , 设 定 反 事实 xB。 这 既 对 回归 元 x 的 效应 
施加 了 约束 ,又 对 处 理 效应 施加 了 约束 ,约束 是 以 x 为 条 件 的 ,假定 对 于 不 同 个 体 
而 言 是 常 值 。 

处 理 效 应 文献 强调 并 不 依赖 于 如 此 强 假 设 的 反 事 实 。 一 种 明显 方法 是 ,将 已 
处 理 及 未 处 理 个 体 与 x 的 相同 值 加 以 比较 ,但 如 果 几 个 回归 元 被 认为 是 有 意义 的 ， 
而 且 这 些 回归 元 取 一 系列 不 同 的 值 ,那么 对 回归 元 匹配 (matching on regressors ) 碟 
不 可 解 的 。 

然而 ,给 定 25. 3 节 与 25. 4 节 详 述 的 假设 ,对 倾向 得 分 匹配 Cmatch on the propen- 
sity score) 就 足够 了 ,这 里 倾向 得 分 匹配 被 定义 成 处 理 的 条 件 概率 PrLD 二 1|x|。 对 
此 例 来 说 ,我 们 只 利用 初始 1975 年 的 数据 可 估计 logit 模型 : 


Pr{D,=1|x; |= A(xB), 1 一 ],***,2 675 (25, 78) 
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其 中 ,由 14.2 节 知 ,人 A(z) 王 e</(1 二 ez) 遵循 德 赫 贾 和 沃 赫 拜 (Dehejia and Wahba， 
1999) 线索 ,选择 回归 元 为 AGE、AGESQ、EDUC、EDUCSO、NODEGREE、 
BLACK. HISP.MARR. RE74.RE75.RE74SQ.RE75SQ 以 及 U74* BLACK. 

图 25. 3 画 出 ,处 理 后 工资 RE78 与 倾 问 得 分 ,分 别 各 目 绘 制 出 已 处 理 样本 及 
对 照 组 样本 。 当 仅仅 考虑 倾向 得 分 (x 轴 ) 时 ,很 明显 ,对 照 组 中 绝 大 多 数 部 分 观测 
值 具有 非常 小 的 倾向 得 分 ,期 望 结 果 已 由 25. 3 给 出 数据 , 即 已 处 理 个 体 是 成 比例 
的 黑人 .失业 、 受 教育 年 数 少 的 个 体 。 





处 理 后 工资 与 倾向 得 分 
已 处 理 样 本 

及 15 000 s 

上 托 
” 枉 。“ 

本 10 000 + 2 

2 Ci 

5 000 + 
0 上 . ob 
0.5 | 
倾向 得 分 
。 原始 数据 ” 一 一 一 非 参 数 回归 


25.3 培训 影响 。 依 据 处 理 状态 ,处 理 后 的 收入 与 倾 回 得 分 的 散 点 图 。 这 里 只 包含 有 相同 
倾向 得 分 的 那些 观测 值 。 为 了 方便 观察 ,收入 超过 20 000 美元 的 观测 I 值 被 排除 在 散 
点 图 之 外 ,尽管 非 参 数 回归 包括 这 些 观测 什 。 


转 到 处 理 后 结果 RE78(y 轴 ) ,可 以 发 现 ,处 理 效 应 被 估计 成 给 定 已 处 理 个 体 
(DD 二 1) 与 含有 相同 (预测 ) 倾 向 得 分 对 照样 本 个 体 之 差 。 图 25. 3 中 每 组 都 包括 了 
RE78 对 倾向 得 分 的 拟 合 非 参 数 回 归 。 在 相当 大 的 倾 品 得 分 范围 内 ,处 理 效 应 小 于 
1 000 美元 ,尽管 对 于 倾向 得 分 0. 80 左右 来 说 , 它 相 当 大 且 为 正 的 。 

存在 许多 实施 这 种 将 个 体 与 类 似 倾 癌 得 分 进行 比较 的 方法 ,然后 对 所 有 已 处 
理 个 体 进 行 平均 。 一 种 策略 是 ,将 已 处 理 个 体 与 对 照样 本 中 具有 最 接近 倾 问 得 分 
的 个 体 加 以 匹配 。 此 方法 在 25. 4. 4 市 称 为 最 近邻 匹配 。 比 较 人 简单 的 策略 是 ,通过 
倾向 得 分 记 为 p(x) ,将 数据 分 成 层 , 并 设 反 事实 条 件 陈述 是 对 照 组 ER78 的 组 内 平 
均值 。 例 如 ,如 果 已 处 理 观 测 值 具有 倾向 得 分 p(x) 二 0. 35, 那 么 反 事 实 条 件 陈述 
就 是 关于 对 照 组 的 RE78 ,观测 值 满 足 0. 30 志 p(x) 志 0. 40 的 p(x) 平 均值 。 于 是 ， 
总 效应 是 2 (RE78.p-， — RE78,,p-0 ) 9 其 中 , RE78,.p_ 与 RE78,,p-o 分 别 表示 已 
处 理 观 测 值 与 未 处 理 观 测 值 ,而 其 权 数 w, 等 于 每 一 层 中 已 处 理 观测 值 的 比例 。 一 
种 简单 分 层 方案 使 用 ,比如 说 10 等 份 空间 分 层 , 满 足 0. 0 二 p(x) 专 0. 1，0. 1 到 
p(X) 志 0. 2 等 。 这 在 25. 4. 4 节 称 为 分 层 匹 配 。 这 种 方法 应 该 被 限制 在 已 处 理 样 
本 与 对 照样 本 交 夺 的 倾向 得 分 情形 上 ,参见 25. 4. 3 节 。 此 处 ,已 处 理 样 本 的 倾 问 
得 分 范围 从 0. 000 5 到 0. 942 0, 而 对 照样 本 的 倾 回 得 分 范围 从 0. 000 0 到 0. 937 1， 
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导致 了 1 423 个 对 照 组 个 体 与 8 个 已 处 理 个 体 被 省 略 掉 。 所 得 到 的 估计 总 效应 是 
995 美元 ,已 在 表 25. 4 中 给 出 。 
表 25.4 培训 影响 ;处 理 效应 的 各 种 不 同 估计 值 


方 法 定 义 估计 值 标准 误差 
处 理 一 对 照 比 较 RE78,_1 一 RE78D-， 一 15 205 656 
控制 咀 数 佑 计量 源 自 OLS 回归 (25. 76)& 218 768 
前 后 比较 RE78 -一 RE75p-， 4817 625 
差异 中 差分 源 目 OLS 回归 (25. 77)& 2 326 749 
倾向 得 分 参见 25. 8. 4 节 995 一 


a 前 四 个 估计 值 的 标准 误差 是 利用 来 自 适当 OLS 回归 的 异 方差 一 致 标准 误差 计算 出 来 的 。 


25. 8.5 利用 倾 亲 得 分 匹配 


如 同 25. 4 市 提 及 的 ,其 他 一 些 匹配 策略 包括 半生 匹配 与 核 世 配 , 它 们 同样 相 
对 容易 实施 。 本 章 余 下 内 容 详 细 讨 论 这 些 方法 及 其 他 方法 ,特别 强调 倾向 得 分 方法 。 

拟 合 倾向 得 分 

拟 合 倾 回 得 分 可 利用 分 别 源 自 德 赫 贰 和 沃 赫 拜 (Dehejia and Wahba，1999 ) 以 
及 德 赫 机 和 沃 赫 拌 (Dehejia and Wahba，2002) 的 两 个 不 同 logit 设 定 来 获得 。 关 
于 倾向 得 分 的 设 定 已 在 表 25.6 底部 详细 给 出 。 仅 在 违 离 德 赫 贾 和 沃 茶 拜 (Dehejia 
and Wahba，1999，2002) 情 况 下 ,我们 的 logit 模型 包括 了 和 党 全 项 。 为 了 下 省 篇 
幅 ,不 曾 述 系数 估计 ,但 表示 预计 的 符号 模式 。 

匹配 算法 与 平衡 

一 个 重要 的 实际 应 用 问题 是 ,选择 一 种 基于 倾 同 得 分 的 适当 匹配 算法 ,使 得 平 
衡 条 件 (25. 9) 满 足 。 德 赫 贾 和 沃 赫 拜 (Dehejia and Wahba，2002, 第 16 页 ) 提 供 了 
以 简洁 logit 模型 对 p(x) 进 行 估计 的 算法 。 该 算法 原理 如 下 。 依 照 p(x) 对 数据 进 
行 分 类 。 对 样本 观测 值 加 以 分 层 ,使 得 层 内 关于 已 处 理 单元 与 控制 单元 的 p(x%) 部 
很 接近 。 例 如 ,起 初 使 用 等 范围 的 粗 格 子 。 对 于 每 一 层 来 说 ,已 处 理 单元 与 末 处 理 
单元 之 间 均 值 相等 就 每 个 协 变量 而 言 都 要 加 以 检验 。 如 果 不 存在 统计 上 的 显著 差 
异 ,那么 回归 元 在 已 处 理 组 与 未 处 理 之 间 是 平衡 的 ,从 而 人 们 可 以 停止 。 对 于 某 些 
层 来 说 ,如 果 不 存在 平衡 ,那么 就 非 平衡 层 (unbalanced stratum) 而 言 ,使 用 更 精细 
格子 来 达到 平衡 。 若 存在 许多 非 平衡 屋 , 则 运用 包含 回归 元 之 间 交 叉 项 及 较 高 阶 
项 的 改进 设 定 来 重新 估计 最 初 的 logit 模型 。 

利用 贝克 尔 和 市 野 (Becker and Ichino，20027 的 软件 , 德 芯 南 和 沃 茶 拜 (Dehe- 
jia and Wahba，2002) 算 法 可 用 于 计算 倾向 得 分 。 在 所 有 注意 到 的 情况 下 , 倾 回 得 
分 计算 被 限制 在 对 平衡 性 质 (balancing property) 进行 检验 的 共同 文 撑 区 域 , 该 检 
验 利 用 那些 倾向 得 分 位 于 已 处 理 单元 与 对 照 组 单元 的 倾向 得 分 支 集 的 交集 中 的 观 
测 值 。 这 种 限制 显著 地 减少 了 最 初 样本 。 就 德 赫 质 和 话 替 拜 (Dehejia and Wahba， 
2002) 设 定 而 言 ,对 照 组 容量 从 2 490 单元 减少 到 1 086 单元 。 

表 25. 5 给 出 了 在 实施 平衡 之 后 ,通过 刚才 概述 方法 完成 的 不 同 组 中 一 系列 已 
处 理 单元 与 控制 单元 。 报 告 结果 与 德 笛 页 和 活 赫 拜 (Dehejia and Wahba，2002) 的 
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那些 不 同 ,因为 后 者 从 不 以 共同 支撑 区 域 为 基础 的 NSW - PSID 合成 样本 中 排除 
掉 对 照 单 元 ,只 是 以 样本 单元 估计 倾向 得 分 是 否 小 于 已 处 理 单元 的 估计 倾向 得 分 
最 小 值 为 基础 。 该 表 显 示 , 奇 与 其 他 组 相 比 较 , 已 处 理 单元 与 对 照 单元 的 比例 ,就 
第 一 组 而 言 是 相当 小 的 。 

表 25.5 ”培训 影响 :利用 德 赫 贾 和 沃 赫 拜 (1999) 设 定 的 关于 





已 处 理 单元 与 对 照 单元 的 倾向 得 分 分 布 * : 
最 小 值 p(x) 已 处 理 的 未 处 理 的 总 数 
0. 000 364 9 960 969 
0. 10 10 56 66 
0. 20 14 33 47 
0. 40 24 22 46 
0. 60 33 7 40 
0. 80 95 8 103 
总 计 185 1 086 1 271 





” 例如 ,从 第 二 行 知 ,倾向 得 分 位 于 10 个 已 处 理 个 体 与 56 个 未 处 理 个 体 的 0. 10 与 0. 20 之 间 。 


对 德 赫 枫 和 沃 赫 拜 (Dehejia and Wahba，1999) 的 设 定 可 做 出 类 似 检验 ,简单 
起 见 , 这 里 就 不 列表 显示 了 ,但 仍 会 产生 类 似 结果 。 对 照 组 具有 1 146 个 观测 值 。 
于 是 ,对 于 分 组 p(x) 来 说 ,有 界 值 是 0. 000 652 6，0. 05，0. 10, 0. 20, 0. 40, 0. 60 
以 及 0. 80。 

通过 匹配 方法 对 ATET 估计 

关于 各 种 匹配 方法 结果 的 选择 已 概括 归纳 在 表 25. 6 中 。 就 德 赫 机 和 活 赫 拜 
(Dehejia and Wahba，2002) 设 定 而 言 , ATET 的 最 近邻 估计 值 是 2 385 美元 ,而 就 

表 25.6 培训 影响 :ATET 的 估计 值 


匹配 方法 已 处 理 数 对 照 组 数 ATET 标准 差 ” 占 1794 美 元 

德 赫 贸 种 洪 赫 拜 (2002) 设 定 * 
最 近邻 185 53 2 385 ] 209° 133 
半径 ,r= 二 0. 001 54 517 一 7 815 1 118° 一 436 
半径 ,r= 二 0. 000 1 24 92 一 9 333 2 2824 一 520 
半径 ,r= 二 0. 000 01 15 19 一 2 200 2 9864 一 120 
分 层 185 1] 086 1 452 1 041: 81 
核 185 1 058 1 309 975* 73 

德 赫 贾 和 沃 赫 拜 (1999) 设 定 。 
最 近邻 185 57 560 1 098:° 31 
半径 ,r= 二 0. 001 57 583 一 9 358 9974 一 522 
半径 ,r= 二 0. 000 1 27 76 一 7 847 2 0664 一 437 
半径 ,r= 二 0., 000 01 16 13 223 4 5511 12 
分 层 185 1 146 2 156 814° 120 
核 185 1 146 1 518 890° 85 


。 logit 模型 .Pr[ treat 二 1] 二 (CONSTANT, AGE, AGE?, EDU, EDU?:, MARRIED, NODEGREE. 
BLACK, HISPANIC, RE74, RE74?, RE75, U74, U75, U74" HISPANIC). 

b iogit 模型 :Pr [treat 二 1] 二 h(CONSTANT, AGE, AGE:, EDU, EDU?, MARRIED, NODEGREE, 
BLACK, HISPANIC, RE74, RE74?, RE75, RE75?, RE74*RE75, U74* BLACK). 

” 带 有 200 个 复制 的 目 助 法 标准 误差 。 

”解析 标准 误差 。 

* ATET/1794 X 100, 
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德 赫 机 和 沃 赫 拜 (Dehejia and Wahba，1999) 设 定 而 言 , 它 的 ATET 最 近邻 估计 值 
大 致 是 560 美元 。 分 层 与 核 匹 配 的 效果 同样 可 以 是 混杂 的 ,ATET 的 估计 值 从 
1 452 美元 到 2 156 美元 。 

为 了 比较 起 见 , 德 忒 页 和 话 欠 拜 (Dehejia and Wahba，2002)ATET 估计 值 已 
由 表 25. 7 重新 给 出 。 我 们 还 注意 到 ,处 理 效 应 的 基准 估计 是 1 794 美元 。 它 可 通 
过 RE78 对 既 有 参与 者 又 有 非 参与 者 的 NSW 样本 的 德 赫 贾 和 沃 赫 和 拜 (Dehejia and 
Wahba，2002) 形 式 进行 回归 而 求 出 。 很 明显 ,此 表 中 报告 的 ATET 估计 值 显著 地 
不 同 于 德 赫 机 和 沃 替 拜 (Dehejia and Wahba,2002) 的 那些 结果 ,并 且 不 同 于 基准 实 
际 实 验 估 计 信 。 对 德 赫 寺 和 沃 赫 拜 (Dehejia and Wahba，2002) 设 定 来 说 ,其 最 近 
邻 佑 计量 非常 接近 于 基准 估计 ,而 依照 缩减 但 傈 来 说 ,甚至 比 德 赫 贾 和 沃 赫 拜 (De- 
hejia and Wahba，2002) 的 结果 更 好 。 


表 2$.7 培训 评估 : 德 赫 责 和 沃 赫 拜 (2002) 的 ATET 估计 


匹配 方法 ATET 标准 误差 
最 近邻 1 890 ] 202 
半径 ,r 一 0. 001 1 824 1 187 
半径 ,r 一 0. 000 1 1 973 1 191 
半径 ,r= 二 0. 000 05 1 928 1 196 
半径 ,r 一 0. 000 01 1 893 1 198 


对 于 分 层 估 计 与 核 估计 来 说 , 偏 倚 是 较 大 的 。 对 于 半径 还 配 估 计量 来 说 ,这 种 
偶 倚 更 粗糙 ,并 且 给 出 处 理 效应 的 负 估 计 值 ,与 德 赫 机 和 沃 赫 和 拜 (Dehejia and 
Wahba，2002) 利 用 测 径 匹 配 求 出 的 正 估计 值 相反 。 我 们 的 半径 匹配 与 德 赫 机 和 
活 赫 拜 (Dehejia and Wahba，2002) 的 测 径 匹配 之 间 的 差异 在 于 后 者 方案 , 当 给 定 
已 处 理 单元 没有 匹配 到 给 定 测 径 之 内 时 ,匹配 便 与 给 定 测 径 之 外 最 近 的 比较 单位 
进行 匹配 。 在 这 种 情况 下 ,就 忽略 没有 匹配 到 预先 设 定 半径 上 的 已 处 理 单元 。 这 
阐明 了 匹配 估计 量 对 假设 的 敏感 性 。 

就 各 种 不 同 设 定 而 言 , 给 定 表 25. 6 的 最 后 一 列 , ATET 估计 值 的 稳健 性 可 依 
据 ATET 与 基准 估计 之 比 来 计算 。 除 分 层 匹 配 估 计量 以 外 ,其 余 比 率 变 化 对 两 种 
设 定 来 说 变化 更 大 。 例 如 ,在 德 赫 机 和 沃 赫 拜 (Dehejia and Wahba，2002) 设 定 中 ， 
最 近邻 估计 量 是 基准 估计 量 的 1332%% ,但 在 德 赫 页 和 沃 赫 拜 (Dehejia and Wahba， 
1999) 设 定 中 ,最 近邻 估计 量 却 仅 仅 是 基准 估计 量 的 31% 。 类 似 地 , 除 核 估 计量 之 
外 ,ATET 估计 对 所 用 倾 回 得 分 都 是 敏感 的 。 

匹配 方法 是 否 起 作用 ,依赖 于 有 关 已 处 理 组 与 未 处 理 组 的 倾向 得 分 模型 的 适 
合 性 [ 德 赫 贡 和 沃 赫 拜 (Dehejia and Wahba，2002)j。 不 过 ,很 明显 ,在 方法 与 倾向 
得 分 模型 之 间 存 在 着 交互 作用 。 


25. 9 文献 注释 


匹配 方法 与 差异 中 差分 方法 对 项 目 评 佑 的 早期 经 济 应 用 ,包括 阿 申 费 尔 特 
(Ashenfelter,1978) 以 及 阿 申 费 尔 特 和 卡 德 (Ashenfelter and Card，1985)。 处 理 


必 》 处 理 评估 


评估 是 当今 经 济 计量 学 研究 中 一 个 相当 活 牙 且 迅 猛 发 展 的 领域 。 

25.2 安 格 里 斯 特等 人 (Angrist et al. ，1996) 在 医学 与 经 济 计量 学 文献 方面 
的 概念 及 术语 之 间 , 给 出 了 一 种 有 益 的 联系 。 

25.3 ” 夫 克 曼 和 罗布 (Heckman and Robb，1985) 考 察 了 存在 选择 条 件 下 ,各 
种 数据 痛 景 下 项 目 影响 的 估计 。 还 可 参见 比 约克 隆 和 莫 菲 特 (Bj6rklund and Mof- 
fitt，1987) 。 区 克 曼 和 乱 沈 (Heckman and Hotz，1989) 同 样 非常 有 说 服 力 地 讨论 
了 人 们 需要 在 几 种 设 定 检 验 结果 条 件 下 评估 它们 的 稳健 性 ,并 计算 选择 偏 倚 的 影 
啊 。 例 如 ,他 们 建议 使 用 多 重 比 较 组 来 计算 建立 在 单个 对 照 组 基础 上 结果 的 敏感 
性 。 这 方面 的 早期 工作 大 部 分 是 参数 方法 。 最 近 , 大 多 数 非 参数 方法 也 得 到 了 运用 。 

25.4 薪 克 曼 .市 村 和 托 德 (Heckman，Ichimura and Todd，1997) 以 及 的 克 
曼 等 人 (Heckman et al. ，1998) 研 究 并 应 用 了 匹配 估计 量 。 涉 及 以 倾向 得 分 为 条 
件 的 重要 结果 是 由 罗 森 鲍 姆 和 人 鲁 宾 (Rosenbaum and Rubin，1983, 定 理 2) 给 出 的 。 
利用 估计 倾 辐 得 分 对 ATE 进行 有 效 佑 计 是 由 平野 .类 伯 斯 和 里 德 (Hirano Imbens 
and Ridder，2003) 给 出 的 。 德 赫 蔷 和 话 茶 拜 (Dehejia and Wahba，2002) 将 倾向 得 
分 方法 应 用 到 拉 隆 德 (Lalonde，1996) 数 据 集 变形 上 。 实 验 数据 可 与 源 自 CPS 与 
PSID 的 观测 值 相 匹配 。 史 密斯 和 托 德 (Smith and Todd，2004) 利 用 倾向 得 分 重新 
分 析 了 由 德 赫 村 和 沃 严 拜 使 用 的 数据 。 他 们 强调 与 可 供 选 择 倾向 得 分 估计 量 有 关 
的 偏 傈 ,突出 在 偏 丛 最 小 化 时 高 质量 数据 的 重要 性 。 贝 克 尔 和 一 野 (Becker and 
Ichino，2002) 曾 提供 某 些 倾 回 得 分 匹配 估计 量 的 综述 。 他 们 还 给 出 STATA 编程 
集合 加 以 阐述 说 明 , 用 于 对 ATET 进行 估计 。《 经 济 学 季刊 》(Quarterly Journal 
of Economics )2004 年 2 月 刊 包含 了 匹配 经 济 计量 学 研讨 会 专集 。 

25.6 哈恩 , 托 德 和 范 德 殉 芳 (Hahn，,， Todd and Van der Klaauw，2001) 在 弱 
假设 下 ,分 析 了 RD 模型 中 处 理 效 应 的 识别 问题 。 

25.7 英 伯 斯 和 安 格 里 斯 特 (Imbens and Angrist，1994) 分 析 了 LATE 估计 
量 的 性 质 。 安 格 里 斯 特等 人 (Angrist et al. ，1996) 对 人 W 方 法 的 运用 加 以 讨论 ,给 
出 与 处 理 影 啊 的 LATE 测量 的 联系 。 该 论文 还 给 出 对 估计 量 的 各 种 层次 观点 
以 及 文献 联系 的 重要 讨论 ,也 可 参见 蔚 殉 蛇 (Heckman，1997) 。 安 格 里 斯 特 (An- 
grist，2001) 对 在 含有 非 正 态 结 果 的 非 线 性 结果 模型 中 处 理 内 生 虚 拟 变 量 的 某 些 
简单 策略 加 以 讨论 。 此 论文 还 对 线性 化 到 方 法 的 优 缺 点 给 出 一 个 评述 。 在 一 些 竞 
争 方法 之 间 , 对 于 最 有 前 途 方法 的 看 法 难以 达成 共识 。 赫 克 曼 、 托 拜 厄 斯 和 维特 拉 
西 尔 (Heckman，Tobias and Vytlacil, 2003) 发 展 了 潜 变 量 框架 内 的 处 理 效 应 估计 
量 。 维 拉 和 费 尔 册 到 (Vella and Verbeek，1999) 将 下 方法 与 控制 图 数 方 法 加 以 对 
比 ,包括 选择 偶 倚 校正 项 。 


习题 
25 -1 [改编 自 赫 克 曼 (Heckman，1996), | 考察 处 理 一 对 照 模 型 y= 二 x G 十 


ad 十 e, 其 中 ,4d 表示 二 值 指 示 变 量 , 当 处 理 是 随机 指派 时 ,d= 二 1; 当 处 理 不 是 指派 
(同样 不 是 随机 的 ) 时 ,d= 二 0。 : 
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和 


(a) 随机 化 处 理 是 识别 a 的 充分 条 件 吗 ? 

(b) 随机 化 处 理 是 识别 a 与 B8 的 充分 条 件 吗 ? 

25 -2 在 上 一 个 问题 中 ,随机 化 涉及 处 理 。 这 里 ,我 们 考察 关于 接收 处 理 的 
随机 适宜 性 。 现 在 ,e 王 1 意味 着 对 个 体 做 出 随机 指派 ,而 e 二 0 意味 着 对 个 体 不 做 出 
随机 指派 。 证 明 , 在 此 情况 下 ,给 定 PrlLa 王 1| xj 和 0, 处 理 效应 可 由 ELyle 二 1,xj 一 
ELyle 二 0,xj/PrLd 二 1|xj 给 出 。 

2S-3 考察 非 线 性 处 理 结果 模型 E[ y|x,dj] 二 exp(x BB 十 ad), 其 中 ,4d 表示 二 
值 处 理 指 示 变 量 。 假 定 可 以 利用 (8 ,wu) 的 一 致 估计 值 , 并 估计 协 方差 矩阵 V[ 8， 
xj。 假定 估计 量 是 渐 近 正 态 的 。 请 概述 ATE 估计 参数 及 其 渐 近 方差 的 自助 法 或 
蒙特 卡 罗 算 法 ,给 定 (x,di) ,i 一 1,*…,NN。 

25 -4 考察 非 线 性 处 理 结果 模型 ELln y|x,dj 二 x 6 十 ad, 其 中 ,a 表示 二 值 
处 理 指示 变量 。 假 定 可 以 利用 (8B, a) 的 一 致 和 值 计 值 ,并 估计 协 方差 矩阵 V[ 3,a]。 
假定 依据 y 而 不 是 ln y 对 ATE 进行 估计 感 兴趣 。 请 提出 一 种 估计 方法 ,并 讨论 它 
的 一 致 性 。 

25-S 在 本 章 , 经 验 例子 使 用 PSID 对 照 组 与 NSW 处 理 组 。 德 赫 要 和 沃 赫 
拜 (Dehejia and Wahba，2002) 使 用 了 两 个 对 照 组 。 存 在 另 一 种 建立 在 CPS 基础 
上 的 可 利用 对 照 组 。 本 题 要 求 你 利用 CPS 对 照 组 代替 PSID 样本 重复 报告 计算 。 

(a) 生成 类 似 于 表 25. 3 的 表格 。 依 据 年 龄 .民族 、 受 教育 程度 以 及 处 理 前 工 
资 ,将 NSW 组 与 CPS 对 照 组 进行 比较 。 

(b) 如 同 25. 8 节 所 做 的 ,利用 估计 倾向 得 分 考察 处 理 组 与 对 照 组 之 间 的 差 
异 。 利 用 25. 8. 4 节 方 法 ,估计 NSW - CPS 合成 样本 的 倾向 得 分 ,一 旦 以 线性 方式 
并 入 协 方 差 ,同时 市 有 较 高 阶 项 时 , 像 德 赫 机 和 活 赫 辞 (Dehejia and Wahba, 2002) 
那样 。 假 如 忽略 那些 倾向 得 分 小 于 处 理 单元 最 小 值 的 比较 单元 ,利用 直方 图 对 两 
个 倾向 得 分 的 集合 加 以 对 比 。 对 位 于 不 同 倾 问 得 分 区 间 ( 箱子” 中 含有 比较 单元 
的 匹配 程度 给 出 评述 。 

(c) 利用 25. 8. 4 节 与 25. 8. 5 节 曾 经 阐述 并 实施 的 匹配 方法 (尤其 是 最 近邻 、 
分 层 或 区 间 匹 配 、 核 匹配 以 及 半径 匹配 ) ,建立 一 个 类 似 于 表 25. 6 的 表格 。 对 
ATET 估计 值 加 以 评述 ,并 将 它们 与 那些 建立 在 PSID 基础 上 的 比较 组 加 以 对 比 。 
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26.1 引 论 


在 经 济 计量 学 领域 ,测量 误差 问题 随处 可 见 。 就 微观 经 济 计量 学 而 言 , 测 量 误 
差 问题 的 一 个 共同 来 源 是 对 调查 问题 的 不 正确 回答 .正确 回答 的 错误 记录 ,以 及 一 
个 正确 测量 变量 用 作 男 一 个 理论 上 有 效 却 观 测 不 到 变量 的 代表 (比如 ,用 观测 收入 
代表 “正常 收入 ”)。 探 寻 敏感 信息 问题 可 能 引起 部 分 回答 或 错误 回答 。 也 就 是 说 ， 
当 不 可 观测 变量 (或 潜在 变量 ) 被 代表 变量 所 代替 时 ,由 不 可 观测 变量 (或 潜在 变 
量 ) 引 致 的 测量 误差 。 

这 里 举 几 个 例子 。 考 虑 研究 收入 问题 时 ,对 性 别 偏 倚 存 在 进行 检验 。 一 种 明 
显 方法 是 ,一旦 控制 了 各 类 资格 证 书 、 年 龄 .经 历 等 ,将 收入 测量 对 性 别 分 类 变量 回 
归 。 可 是 ,最 有 关 的 变量 可 能 是 个 体 在 职 效率 ,该 变量 不 可 能 被 直接 观测 到 ,从 而 
要 用 其 代表 变量 。 因 此 ,测量 误差 会 对 性 别 歧 视 推断 产生 影响 ,这 是 一 个 重要 问 
题 。 人 研究 个 体 问 题 时 ,要 考虑 对 商品 及 服务 的 需求 ,诸如 “经 济 成 本 ?或 “全 价 服务 ” 
特征 概念 。 不 过 ,这 类 概念 在 出 版 数据 中 几乎 难以 直接 测算 出 ,因而 必须 用 经 济 计 
量 学 先 验 模型 估计 出 来 。 可 是 ,对 此 类 数据 测算 必 受 限于 误差 。 

本 书 讨 论 的 模型 几乎 难以 避免 测量 误差 问题 。 二 值 结 果 内 生 或 外 生变 量 都 潜 
在 地 受 限 于 分 类 误差 , 源 于 追溯 调查 的 过 渡 数 据 或 计数 数据 均 受 到 回忆 误差 影响 ; 
相对 质朴 变量 , 比如 小 时 工资 与 家 庭 开 支 的 数据 ,被 故意 夸大 或 报告 误差 所 扭曲 。 
与 总 量 数据 不 同 , 汇 总 可 能 导致 与 测量 误差 的 某 种 相互 抵消 ,但 对 于 个 体 层 面 数据 
来 说 ,测量 误差 持续 存在 。 

本 章 第 一 部 分 研究 测量 误差 的 后 果 以 及 用 于 补救 后 果 的 估计 策略 。 这 里 既 讨 
论 线 性 模型 ,又 讨论 非 线 性 模型 。 尽 管 更 为 现实 的 方式 是 ,承认 此 类 问题 经 常 与 其 
他 问题 交织 在 一 起 出 现 ,但 为 了 解释 方便 起 见 ,假定 经 济 计量 学 所 面临 的 问题 仅 是 
测量 误差 。 

更 宽泛 地 讲 , 测 量 误差 的 后 果 是 对 关注 参数 识别 的 失败 。 解 决 该 问题 是 极其 
复杂 的 。 一 种 方法 是 ,考虑 直接 省 略 模 型 的 有 关 变 量 , 或 用 代表 变量 代替 真实 测 
量 。 除 一 些 极 端 情况 之 外 ,都 不 能 这 样 做 ,至 少 存 在 两 个 重要 原因 。 首 先 , 若 变量 
处 于 关注 焦点 , 则 省略 会 产生 严重 的 省 略 变量 偶 倚 ,因此 人 们 是 用 一 种 类 型 问题 代 
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蔡 另 一 种 类 型 问题 ,识别 仍 是 不 可 能 的 。 其 次 ,在 线性 回归 中 ,倘若 测量 误差 是 随 
机 的 且 与 真实 回归 元 独立 , 则 运用 潜在 变量 代表 所 得 到 的 渐 近 偏 倚 比 从 模型 中 直 
接 省 略 潜在 变量 所 产生 的 偏 倚 要 小 [ 麦 卡 勒 姆 (McCallum, 1972) ]。 人 和 倘若 忽 略 潜在 
变量 , 则 会 导致 不 好 的 估计 。 不 过 ,运用 代表 变量 仍 将 得 出 非 一 致 估计 ,尽管 该 偏 
倚 较 小 。 

解决 测量 误差 问题 的 基本 观点 是 ,重新 找到 潜在 变量 参数 ,并 识别 模型 。 人 们 
必须 拥有 关于 测量 误差 的 额外 假设 形式 的 外 来 信息 或 者 获得 额外 数据 ,而且 在 做 
出 似乎 合理 的 假设 之 后 ,运用 这 些 信息 。 这 是 一 种 十 分 流行 的 方法 。 不 过 , 当 没 有 
额外 数据 可 以 利用 时 ,就 要 对 经 济 计量 模型 提出 一 种 好 的 可 供 选 择 形 式 。 

测量 误差 会 产生 潜在 的 相当 严重 的 后 果 , 这 是 因为 在 许多 情况 下 ,测量 误差 使 
回归 参数 不 可 识别 。 例 如 , 卡 德 (Card，2001) 曾 再 次 考察 受 教育 对 收入 系数 的 经 
验证 据 , 他 发 现 , 典 型 向 下 偏 倚 25% 一 35%。 测 量 误差 的 确切 后 果 依 赖 于 模型 函 
数 形式 .误差 是 如 何 进 人 模型 里 的 (比如 是 加 法 形式 ,还 是 乘法 形式 ) ,以 及 正在 研 
究 的 数据 结构 。 解 决 因 测 量 误差 而 产生 的 问题 ,典型 地 需要 将 额外 信息 引入 模型 ， 
或 者 是 额外 数据 形式 ,或 者 是 额外 假设 。 

本 章 分 别 以 线性 模型 与 非 线 性 模型 各 自分 开 的 方式 讨论 测量 误差 ,无 疑 这 是 
一 种 简便 的 组 织 安排 ,然后 考察 特殊 情况 。26. 2 节 与 26. 3 节 探 讨 线性 回归 。 
26. 4 下 内 容 滑 盖 非 线性 回归 。26. 5 节 讨 论 一 些 蒙特 卡 罗 例 子 。 由 线性 模型 引出 
基本 的 直觉 观念 ,为 认识 非 线 性 模型 提供 一 个 有 益 的 基础 。 在 任何 情况 下 , 较 明确 
的 结果 通常 都 是 针对 特定 模型 而 得 到 的 。 


26.2 线性 回归 的 测量 误差 


回归 元 的 测量 误差 也 称 为 变量 误差 (error-in-vyariabies) ,尽管 测量 误差 具有 有 零 
均值 ,但 因为 测量 误差 会 使 OLS 估计 量 出 现 非 一 致 性 , 故 它 是 一 个 重要 专题 。 回 
归 元 的 测量 误差 ,经 常 被 说 成 引起 偏 倚 , 但 我 们 却 使 用 比较 强 的 术语 一 一 非 一 致 
性 ,这 是 因为 当 样 本 量 趋 于 无 穷 大 时 ,此 偏 倚 没 有 消失 。 

测量 误差 模型 的 范围 非常 广泛 ,涵盖 了 下 述 一 些 情况 :测量 误差 会 影响 到 右边 
变量 (“回归 元 ”) 或 左边 变量 (“结果 ”) ,或 者 对 左右 两 边 变量 都 产生 影响 。 豪 斯 紧 
(Hausman，2001) 将 它们 称 为 “ 源 于 右边 的 问题 ”与 “ 源 于 左边 的 问题 "。 对 于 后 
者 ,通常 称 为 经 典 变 量 误差 模型 ,关注 的 关系 , 则 是 结果 y 与 协 变量 (W,X-* ) 之 间 
关系 ,其 中 ,W 表示 没有 误差 的 测量 ,而 X* 表示 不 可 观测 的 ,但 X* 却 有 代表 值 可 
以 利用 ,将 其 记 为 X。 关 注 问 题 是 ,y 与 (W,X) 之 间 的 估计 关系 是 否 提供 了 推断 
X ”的 一 个 满意 基础 。 

统计 文献 很 容易 区 分 测量 误差 模型 的 图 数 方法 与 结构 方法 。 知 X* 表示 真实 
不 可 观测 的 协 变量 , 则 函数 方法 将 这 些 协 变量 处 理 成 未 知 固定 常 值 (参数 )。 而 结 
构 方 法 则 将 这 些 协 变量 处 理 成 随机 变量 。 卡 罗 尔 、 鲁 珀 特 和 斯 特 几 斯 基 (Carroll， 
Ruppert，and Stefanski1，1995) 进 一 步 区 分 了 哨 数 建 模 法 与 结构 建 模 法 ,也 数 建 模 
法 意 指 不 管 协 变 量 是 固定 的 还 是 随机 的 ,对 于 XX 的 情况 均 能 做 出 唯一 最 小 假设 ,而 
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结构 建 模 法 则 对 X 分 布 做 出 参数 假设 。 函 数 测量 误差 模型 是 带 有 无 限 多 宛 余 参 数 
模型 的 例子 ,因此 , 极 大 似 然 法 有 众所周知 的 缺陷 (面板 数据 章节 曾经 讨论 过 )。 经 
济 计量 学 文献 对 这 种 区 分 缺乏 共识 。 

在 应 用 时 ,出 现 的 非 一 致 性 的 程度 是 相当 大 的 。 在 对 个 体 收入 决定 因素 进行 
经 济 计量 研究 时 ,对 测量 误差 以 及 控制 它们 的 方法 尤其 要 进行 广泛 讨论 ， 
26. 2. 1 经 典 测量 误差 模型 

标准 测量 误差 模型 具有 连续 因 变 量 y, 该 因 变 量 y 是 开 个 真实 回归 元 x* 的 一 
个 线性 函数 。 若 y 的 加 法 测量 误差 与 回归 元 不 相关 , 则 加 法 测量 误差 就 不 会 产生 


任何 问题 ,这 是 因为 它 被 吸收 到 方程 误差 之 中 。 当 x* 是 可 观测 的 , 则 通过 y 对 x* 
的 普通 最 小 二 乘法 回归 


Vi —x*[ Tu; 


能 一 致 地 估计 出 参数 ,其 中 ,w 是 iid 10,o]。 否 则 ,观测 数据 是 x 关 x” ,yy 要 对 x 而 
不 是 x* 进行 回归 。 假 定 真实 回归 元 与 观测 回归 元 之 间 的 关系 是 : 


x =xX* 十 Vy,， i 二 1,:…,N (26. 1) 
其 中 ,加 法 测量 误差 被 假定 成 服从 下 面 分 布 : 
vi 一 [L0, 开 ,| (26. 2) 


不 可 观测 真实 回归 元 被 假定 具有 零 均 值 , 原 因 在 于 将 变量 测量 成 偏离 均值 形式 , 且 
其 有 方差 矩阵 : 


Vx |=By (26. 3) 

注意 ,x 是 x” 的 无 偏 估计 值 ,因为 测量 误差 被 假定 成 有 零 均 值 。 者 假定 测量 误差 既 
与 X 独立 ,又 与 回归 误差 xx 独立 , 则 有 : 

Elv.,|x: |=Elv,|u; |=0 (26. 4) 


26.2.2 OLS 的 非 一 致 性 


考察 测量 误差 的 后 果 , 将 假定 的 经 典 测量 误差 模型 的 数据 生成 过 程 用 矩阵 记 
号 写成 ; 
y 一 “9 十 Uu (26. 5 ) 
X=X" 十 V 
是 有 益 的 ,其 中 ,方程 误差 遵从 条 件 ELu|X*] 二 0 与 ELuu |X*j] 一 01In。 将 第 二 
个 方程 代 人 第 一 个 方程 ,得 到 : 


y 二 XB 十 (u 一 VB) (26. 6) 
由 于 误差 项 (u 一 VB) 经 由 测量 误差 而 与 回归 元 X 相关 ,所 以 y 对 XX 的 OLS 回归 


会 得 出 B 的 非 一 致 估计 。 
正式 地 讲 ,我 们 有 : 
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plim NIX (yu—VB)=plim N -7!'(X’ 十 V) Cu 一 VG) 
= 一 EB 
0 
这 里 使 用 了 NiVV=N’! Viv 以 及 V; 是 lid [ 0, |。 这 是 非 一 致 性 的 根本 来 
源 。 现 在 : 
plim NIXX 一 plim NICOX 十 V) (X*++V) 
一 orv 十 王 。 
其 中 ,用 到 了 xi 的 iid 性 质 , 对 均值 为 0 且 VLxi 一 丈 。。 此 外 ,有 : 
plim N -1X'y =plim NICX* 十 V) (X* Bw) 
一 Zeir 人 
天 0 
因而 , 当 应 用 斯 卢 茨 基 定理 (附录 A, 定 理 A. 3) ,得 到 ; 
plim B= (plim NIX'X) plim NIX'y (26. 7) 
一 (Fo) (Pu — BB 
=B—(Br TE) ED 
很 明显 ,只 要 存在 测量 误差 目 二 , 关 0, 就 会 使 OLS 是 非 一 致 的 。 
为 了 后 面 参 考 方便 ,注意 到 , 当 我 们 可 以 利用 却 , 的 一 致 估 计 值 ,将 其 记 为 S.， 
并 且 (XX 一 S$,) 是 正定 的 ,就 能 计算 调整 后 的 最 小 二 乘 估 计量 太一 (XX 一 S,) 1X'y。 
该 公式 还 能 用 于 研究 测量 误差 方差 的 假设 值 对 最 小 二 乘 估计 量 的 影 啊 。 


26.2.3 纯 重 回 妇 元 的 济 重 吝 卷 


教科 书 通常 考虑 这 种 模型 的 特殊 情况 , 即 考察 如 下 情况 :单一 真实 或 观测 回归 
元 x' ,该 x* 具 有 方差 ox ,观测 值 x 具有 和 零 均值 的 测量 误差 v 以 及 有 关 的 oc。。 也 就 
是 说 ,回归 为 > 二 pz 十 u, 其 中 ,ELu|x*j==0, Viulxz"j==o%, 并 且 CovLv,uj 一 0, 只 
是 x 在 进行 回归 估计 时 ,要 用 zz 观测 变量 代替 。 

在 此 情况 下 , 式 (26. 7) 被 特别 简化 成 : 


plim B 一 了 (26. 8) 


于 

一 BL1 一 s/(1 十 s) | 
其 中 ,s 王 6/o%: 经 常 被 称 为 信 了 噪 比 511(noise-torsignal ratio) ,而 将 整个 (十 ;) 称 
为 可 信 率 (Creliability ratio) 。 从 渐 近 形式 上 看 ,会 向 下 偏 倚 起 于 0, 其 偶 倚 程度 直接 
依赖 于 信 噪 比 。 这 种 偏 傈 ,还 被 称 为 衰减 偏 傈 (attenuation bias) 。 该 术语 的 含义 非 
常 直观 ,因为 它 表 明 研 究 者 估计 x* 变化 对 y 的 边际 影响 因 测 量 误差 而 请 减 。 


[C1] 又 称 为 信号 噪声 比 。 一 一 详 者 注 
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同样 地 ,注意 到 : 


V[y| 柯 一 中 十 全 2 > 

这 蕴含 看 ,测量 误差 不 仅 引 起 衰减 偏 倍 , 也 会 使 方程 误差 方差 变 大 。 明 确 地 讲 , 误 
差 方差 的 减少 将 使 方程 的 残 差 方差 变 小 。 

上 面 阐述 了 二 变量 回归 包含 截 距 项 ,会 使 截 距 的 最 小 二 乘 估 计量 5 一 弃 产生 
问 上 偏 倚 , 其 中 ,(y,z) 都 表示 样本 均值 ,y 与 是 各 自 总 体 均 值 的 一 致 估计 值 。 克 
拉 格 CCragg，1994) 提 出 ,运用 “污染 偶 倚 ”(contamination bias) 术 语 来 表述 测量 误 
差 对 方程 中 男 一 个 回归 参数 的 这 种 效应 。 

举 一 个 例子 ,考察 小 时 工资 对 数 对 受 教 育 年 数 的 回归 。 假 定 受 教育 年 数 x' 测 
量 时 带 有 误差 ,并 假定 真实 受 教 育 年 数 的 标准 差 为 2, 而 测量 误差 的 标准 差 为 1, 从 
而 oo 二 4, 二 1 以 及 二 5。 于 是 ,plim 8 一 0.8XpB。 比 如 ,OLS 估计 斜率 系数 为 
0.04, 意 指 实际 上 多 受 教育 一 年 , 则 会 使 工资 有 5% 的 而 不 是 4% 的 提高 。 


26. 2.4 推广 


把 这 种 简单 而 优美 的 结果 进行 发 展 及 推广 ,研究 者 经 常会 问 , 误 减 但 倚 是 测量 
误差 模型 的 一 般 特 性 吗 ? 并 且 其 衰减 了 多 少 ? 尽管 该 结果 对 更 一 般 模型 不 一 定 成 
立 , 却 提供 了 一 种 基准 。 豪 斯 曼 (Hausman，2001) 将 由 测量 误差 引起 的 误 减 信 倚 
称 为 "经济 计 量 学 的 铁 律 ”。 

若 假定 测量 误差 与 真实 不 可 观测 值 无 关 , 则 称 此 测量 误 善 是 "经典 的 >。 虽然 
这 样 做 方便 ,但 该 假设 可 能 并 不 成 立 。 实 际 上 ,在 某 些 情况 下 , 它 不 能 成 立 。 例 如 ， 
当 xz 是 二 值 变量 0/1 时 ,测量 误差 将 是 一 种 分 类 误差 。 如 果 因 错误 分 类 而 将 0 测 
量 为 1, 反 之 亦 然 , 那 么 该 种 测量 误差 一 定 与 真实 值 相关 。 

当 存 在 一 个 以 上 回归 元 时 , 设 X* 二 Lx" Zj, 并 且 如 同上 述 情 况 一 样 ,我 们 假定 
仅 有 一 个 回归 元 被 观测 到 , 且 带 有 测量 误差 , 即 x 二 x' 十 vu。 于 是 ,xz 系数 的 最 小 二 
乘 估计 量 表 达 式 变 成 : 


2 


i 0 
plim Bel 811 RT (0. 9) 


其 中 ,R2. ;表示 x* 对 忆 辅 助 回 归 的 Re 。 倘 告 我 们 把 xz* 的 方差 重新 解释 成 控制 或 
去 掉包 对 x* 的 线性 影响 之 后 方差 ,公式 (26. 9) 本 质 上 与 式 (26. 8)513 是 一 样 的 。 
最 小 二 乘 估计 量 的 非 一 致 性 再 次 趋 于 0, 不 过 8 的 倍数 小 于 单个 回归 元 情况 。 不 带 
测量 误差 的 回归 元 系数 也 是 非 一 致 的 ,其 方向 依赖 于 Bex [ 利 瓦 伊 (Levi，1973) ] 。 
人 们 能 将 这 种 效应 再 次 看 成 是 污染 偏 傈 。 在 这 些 特殊 情况 下 ,所 阐述 的 衰减 偏 倚 
严重 依赖 于 可 加 测量 误差 的 假设 。 

- 当 存 在 一 个 以 上 回归 元 时 ,进行 测量 并 带 有 误差 ,就 不 可 能 利用 非 一 臻 性 方 加 
的 一 般 性 结果 。 不 过 ,在 任何 给 定 问题 中 ,已 知 Bx 与 五 ,的 知识 ,就 能 决定 非 一 致 


[1] 原著 中 这 里 为 式 (26. 9) ,是 一 个 印刷 错误 ,应 为 式 (26. 8) 。 一 一 译 者 注 
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性 方 回 。 大 部 分 研究 都 考察 仅 有 一 个 回归 元 有 测量 误差 ,在 此 情况 下 , 非 一 致 性 趋 
于 0。 来 目前 面 例子 的 直觉 是 , 奉 不 同 回归 元 的 测量 误差 是 独立 的 , 则 每 一 种 来 源 
都 将 贡献 给 “自己 ”系数 的 偏 倚 , 同 时 全 部 来 源 使 得 条 件 方 差 偏 倚 变 大 。 克 拉 格 
(Cragg，1994) 分 析 了 和 市 有 测量 误差 的 多 元 回归 模型 ,并 证 明 偏 倚 之 间 的 交互 作用 
有 不 同 来 源 。 


26.2.5 线性 面板 模型 测量 误差 


当 运 用 面板 数据 时 ,回归 元 测量 误差 效应 体现 出 一 种 混合 形式 。 

假定 混合 面板 模型 y; 二 Bri 十 wi ,其 中 可 以 观测 到 zi 二 xi 十 vi ,而 且 为 了 简 
单 起 见 ,假定 纯 量 回归 元 。 如 果 我 们 估计 单一 横 截 面 ,那么 上 述 结果 仍 成 立 。 不 
过 , 当 我 们 利用 一 年 以 上 的 个 体 数据 进行 佰 计时 ,就 需要 改动 前 面 结 果 , 因 为 回归 
元 xi 更 可 能 是 正 相 关 的 ,而 不 是 对 给 定 i 时 不 同上 而 言 是 独立 的 。 例 如 , 若 进 行 一 
阶 差 分 , 则 得 到 回归 : 


和 Vi 一 六 Arzi 十 Ar， 
— ATi 二 Aw — BAv 


(参见 21.6 万。) 并 定义 0 一 CorlL zz ,那么 : 


_ N _ N 
plim 一 8 十 (plim 之 。 (Axi)” ) (plim 入 2 ( Axi Aui — BAXi Avi ) ) 


2p8c， 
b 2(1 一 D)oxz。 + 205 


(1 — po 十 


这 里 用 到 了 VLAvi jj 一 2VLw | 与 VLAx; | 二 2(1 一 p)VLz; j。 

当 po 盖 0 时 ,此 非 一 致 性 比 横 截 面 情况 的 要 大 一 些 。 男 外 , 当 p 一 1 时 ,正如 面 
板 数 据 情形 一 样 , 非 一 致 性 变 得 相当 大 。 通 过 运用 差分 法 ,这 种 非 一 致 性 得 以 减 
少 , 这 里 ,m 放 1 滞后 除外 ,原因 在 于 CorLz ,x ,_,」] 关于 mm 将 是 递减 的 。 


26. 3 识别 策略 


一 般 地 讲 , 若 没有 额外 假设 ,变量 误差 模型 是 不 可 识别 的 。 可 将 这 种 陈述 在 二 
变量 模型 特殊 情况 下 作 如 下 解释 。8B 估计 值 ,或 更 准确 地 讲 , 为 8 的 概率 极限 , 关 
于 8 与 信 品 比 的 众多 不 同 组 合 都 是 一 致 的 。 不 过 ,如 果 能 提供 针对 此 问题 的 额 
外 假设 或 信息 ,那么 可 能 剔除 基本 参数 的 某 些 组 合 , 基 本 参数 与 观测 数据 分 布 就 是 
一 致 的 。 假 如 额外 限制 刚好 足够 获得 唯一 解 , 则 称 该 模型 是 恰好 识别 的 。 假 如 额 
外 限制 足够 多 以 致 模型 参数 唯一 识别 , 则 称 该 模型 是 过 度 识别 的 。 

测量 误差 模型 的 一 般 识 别 策略 是 ,倘若 没有 进一步 先 验 信息 或 数据 ,就 要 获得 
关注 参数 的 界 (bounds) 不 是 点 估计 。 如 果 有 关于 测量 误差 额外 数据 与 /或 信息 , 那 
么 可 使 用 额外 的 识别 策略 ,诸如 用 工具 变量 估计 ,或 通过 和 矩 约 束 识别 。 测 量 误差 的 
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额外 信息 是 一 个 宽泛 的 概念 , 它 包 括 最 古老 的 识别 策略 ,以 及 将 真实 不 可 观测 变量 
与 其 可 观测 部 分 联系 起 来 的 工具 变量 。 比 如 ,额外 信息 可 产生 衰减 因子 oz /(o2 十 
o) 的 一 致 佑 计量 ,这 使 得 调整 偏 倚 的 非 一 致 性 估计 成 为 可 能 。 最 后 , 当 有 重复 数 
据 或 核实 数据 513(Cvalidation data) 可 利用 时 ,这 些 就 能 产生 测量 误差 怎 的 有 用 信 
息 。 上 述 多 种 可 能 性 ,下 面 逐 一 加 以 分 析 。 


26. 3.1 友和 时 阿 力 参 数 界 


重新 考察 26. 2 市 的 多 元 回归 问题 。 已 知 该 模型 服从 下 述 要 求 :方差 Bw、 
与 名 必 是 半 正 定 的 。 这 与 估计 的 正 交 性 一 起 用 于 对 系数 必须 位 于 的 某 个 区 域 施 
加 某 种 界 。 克 莱 班 和 利 默 (Klepper and Leamer，1984) .万 斯 比 克 和 梅 杰 (Wans- 
beek and Meijer，2000) 都 曾经 研究 某 种 一 般 性 问题 。 一 种 更 易于 掌握 的 界 方 法 特 
殊 情 况 是 下 面 将 要 阐述 的 逆向 回归 法 。 

逆向 回归 

在 具有 变量 (y, rz) 的 简单 二 变量 回归 模型 中 , 正 回 回归 (direct regression) 意 
指 y 对 xz 的 回归 ,而 道 向 回归 (reverse regression) 意 指 z 对 y 的 回归 。 在 具有 天 个 
协 变量 的 一 般 多 元 回归 情况 下 ， 仅仅 存在 一 个 正 回 回归 ,但 有 K 个 逆 问 回归 |。 每 
一 个 逆 同 回归 都 有 左边 的 错误 测量 内 生变 量 , 而 其 余 内 生变 量 与 y 位 于 右边 。 在 
市 有 测量 误差 的 二 变量 回归 情况 下 ,容易 证 明 ,来 自 正 回回 归 与 逆 回 回归 的 估计 斜 
卒 系数 对 真实 斜率 系数 施加 了 其 下 界 与 上 者 。 在 分 析 测 量 误 差 效 应 时 ,这 是 一 个 
潜在 有 用 的 结果 。 利 默 (Leamer，1978) 对 逆 癌 回归 给 出 了 一 个 优秀 的 讨论 。 

首先 ,我 们 通过 参照 含有 测量 误差 的 简单 二 变量 回归 模型 

y—Bzr’ 十 u (26. 10) 
并 一 并 ”十 忆 

考察 道 癌 回归 的 人 逻辑 性 ,其 中 ,wu 表示 回归 误差 ,v 表示 解释 观测 变量 工 与 无 误差 测 
量 x* 之 差 ,这 里 x* 可 进入 回归 之 中 。 我 们 假定 wx 一 L0, ,并 且 wv~ 
NI0, o|], 

下 述 索 拉 里 (Solari，1969)| 以 及 利 默 (Leamer,1978) | 的 结构 方法 是 ,将 x* 处 
理 成 似 然 肾 数 中 的 未 知 参 数 。 给 定 (y,x) 数 据 , 其 联合 似 然 是 : 


L(x’ ,Bo ,0 ) CO (gi) Nexp| —27(y—Px)’(y—Bx) | 
x CD) Nexp| —23 0 —x) CX —x) | (26. 11) 


该 条 件 在 满足 条 件 史 =0 与 x 二 x, 或 条 件 引 二 0 与 y= 二 Bx* 的 点 上 没有 定义 。 当 我 
们 对 这 个 服从 约束 的 似 然 函 数 良 好 和 定义 部 分 直接 求 极 小 值 时 ,就 得 到 二 个 纯 量 回 
归 系 数 ,一 个 是 正 向 回归 的 Bp 二 yx/x'x, 而 另 一 个 是 逆向 回归 的 Br 二 y x/y y。 为 
了 便于 直观 想象 ,注意 到 ,如 果 x 测量 没有 误差 ,那么 y 就 是 随机 的 ,而 x 则 不 是 ， 


[1] 又 称 为 有 效 数 据 。 一 一 译 者 注 


微观 经 济 计量 学 


Er 


因此 正 向 回归 具有 有 意义 的 条 件 期 望 解释 ,从 而 只 要 x 是 随机 的 (测量 时 带 有 误 
差 ) ,条 件 期 望 ELxly] 就 有 意义 ,因为 这 两 个 方程 组 被 简化 成 z=(1/8)y 一 u/B 十 vw。 
也 就 是 说 ,逆向 回归 会 得 出 最 小 二 乘 估计 值 (1/8 。 可 直接 验证 

r2,Br = Bo (26. 12) 

Bp<B < BR 
其 中 ,成 表示 zz 与 y 之 间 样 本 相关 性 平方 ;其 界 表明 bw 是 8 的 向 下 偏 倚 估 计 值 , 训 
是 8 的 向 上 偏 倚 估计 值 。 注 意 到 ,在 运用 微观 经 济 数据 时 ,这 两 个 界 可 能 非常 广 
沁 , 其 中 ,几乎 总 是 有 过 < 天 0. 5 的 情况 ,其 至 7 二 0. 1 更 为 普遍 。 

利 默 (Leamer，1978) 曾 经 考察 下 述 (y,x* ) 模 型 ,其 中 ,(y,x*) 服 从 二 变量 正 态 
分 布 ,均值 为 (8z* , 却 *) ,而 协 方差 算 阵 是 : / 
[ofther Bo 


下 一 (26. 13) 
por or 十 or 


利 默 (Leamer，1978 ,第 239 一 240 页 ) 证 明了 ,该 模型 的 似 然 函数 在 正 向 回归 估计 
量 Bo 与 逆向 回归 估计 量 Br 之 间 的 8 任何 值 处 都 达到 极 大 值 。 

前 面 分 析 表 明 , 即 使 8 是 不 可 识别 的 ,但 对 8 值 仍 能 施加 一 致 界 。 这 是 界 识别 
(bounds identification) 的 一 种 潜在 有 用 的 应 用 。 该 结果 能 以 简单 方式 被 推广 到 仅 
有 一 个 回归 测量 时 融 有 误差 的 多 元 回归 情况。 克 菜 珀 和 利 默 (Kilepper and Leam- 
er, 1984) 考 察 了 对 用 个 回归 元 的 多 元 回归 的 一 种 推广 ,那天 个 回归 元 测量 时 都 
带 有 误差 。 存 在 一 个 正 向 回归 与 K 个 道 向 回归 。 在 对 每 一 个 逆向 回归 估计 之 后 ， 
拟 合 回归 得 以 重新 正常 化 ,对 左边 y 而 言 具 有 单位 系数 。 从 而 , 启 是 源 自 正 向 回 
归 的 估计 向 量 。 而 庆 .,G 王 1,……K) 是 来 自 第 7 个 逆向 回归 的 向 量 。 借 助 于 克 莱 
班 和 利 黑 (Klepper and Leamer，1984) 的 结果 ,如 果 正 向 回归 与 道 向 回归 系数 向 量 
均 位 于 同一 个 相 限 ,那么 8 的 可 行 值 集合 是 正 向 回归 与 逆向 回归 的 凸 包 , 即 CE 
{B18 一 Ap Po 十 A1Bri 十 … 十 XsBr,x} ,其 中 ,4 权重 是 非 负 的 且 其 和 为 1。 正 向 回归 
与 逆向 回归 向 量 中 最 小 系数 是 下 界 , 而 最 大 系数 则 是 上 界 。 倘 若 系 数 改 变 符号 , 则 
这 些 界 将 不 存在 。 

除 克 菜 珀 和 利 默 (Klepper and Leamer，1984) 研 究 之 外 ,在 应 用 背景 下 ,还 有 
几 种 运用 这 些 思想 的 人 研究。 格林 (Greene，1983) 与 臣 德 伯 格 (Goldberger，1984) 
将 道 向 回归 用 于 测量 纯 量 判别 上 。 博 林 杰 (Bollinger，2003) 在 工资 与 人 力 资 本 模 
型 里 分 析 了 对 黑人 和 上 白人 之 间 的 差距 。 博 林 杰 (Bollinger，1996) 曾 经 将 界 方法 用 
于 观测 值 类 别 被 错误 分 类 时 类 别 虚 拟 变量 回归 的 情况 。 


26. 3. 2 利用 工具 变量 谤 行 训 别 


解决 识别 问题 的 一 种 方法 是 ,引入 一 个 或 多 个 矩 约 束 , 以 此 构成 进一步 识别 信 
息 。 和 扼 约 束 典 型 地 表明 ,存在 春 一 种 工具 变量 , 它 与 作为 测量 时 带 有 误差 的 那个 变 
量 是 相关 的 ,或 者 从 因果 关系 看 是 有 关 的 。 为 外 ,这 个 变量 与 被 建 模 结果 的 变量 是 
无 关 的 ,或 从 因果 关系 上 看 无 联系 的 。 一 旦 把 该 种 约束 添加 到 最 初 模型 上 ,从 原则 
上 看 ,这 有 助 于 解决 识别 问题 。 


人 0 测量 误差 模型 


i 


从 历史 上 看 ,工具 变量 估计 量 被 用 于 线性 模型 的 测量 误差 问题 的 潜在 解决 方 
法 [ 雷 厄 瑟 尔 (Reiersgl，1941), 德 宾 (Durbin，1954)]。 当 右边 一 个 或 多 个 变量 是 
内 生 的 时 候 , 从 而 与 回归 误差 相关 ,工具 变量 方法 具有 类 似 动机 。 线 性 联 立方 程 模 
型 与 线性 测量 误差 模型 均 是 同 构 的 ,因此 ,在 测量 误差 背景 下 ,运用 工具 变量 类 型 
佑 计量 是 自然 而 然 的 。 

重新 考察 4. 8 节 与 6.4 节 的 线性 工具 变量 模型 ,其 中 ,y= 王 X9 二 u 且 ELulX] 天 
0, 硅 可 以 利用 ZZ 的 有 效 集合 , 当 dim[Z] 宇 dim[ Xj 时 ,就 能 使 用 2SLS 估计 量 。 

人 们 可 使 用 回归 元 内 生性 的 豪 斯 曼 检 验 , 对 测量 误差 存在 进行 检验 ,参见 8. 3 
三。 该 检验 的 几 种 变形 均 可 运用 ,并 且 8. 4 节 已 经 给 出 一 种 变形 检验 。 

实施 工具 变量 佑 计量 的 主要 问题 在 于 寻找 有 效 工 具 时 出 现 的 实际 困难 。 一 个 
好 的 工具 拥有 两 个 性 质 : 其 一 ,与 方程 误差 零 相 关 ( 一 致 性 ) ,其 二 ,与 被 替代 成 工具 
的 那个 变量 视 度 相关 (有 效 性 )。 典 型 地 讲 , 这 样 的 工具 并 不 容易 找到 。 尽 管 从 理 
想 形 式 上 看 ,人 们 应 从 回归 元 与 协 变量 之 间 的 详细 设 定 中 明显 地 推导 有 效 工具 ,但 
在 实际 应 用 时 ,利用 特 设 方法 是 人 们 的 共识 。 和 完全 系统 设 定 方 法 不 同 , 特 设 方法 
较为 简单 且 不 怎么 使 用 。 注 意 到 ,使 工具 拥有 有 效 性 的 条 件 并 不 会 产生 自动 挑选 
它们 的 方法 。 这 些 技术 性 条 件 能 由 某 一 个 变量 得 以 满足 ,该 变量 从 因果 关系 上 看 
与 所 研究 的 现象 无 关 。 人 人们 考察 与 回归 元 强烈 相关 却 与 方程 误差 不 相关 的 那 种 变 
量 。 文 献 中 存在 许多 应 用 该 种 思想 的 有 趣 论 文 ,例如 ,参见 安 格 里 斯 特 (Angrist， 
1990) 。 假 如 出 现 选 择 情 形 ,使 用 此 类 工具 变量 就 可 能 引起 争议 及 令 人 困惑 。 

我 们 考察 收入 对 受 教育 的 横 截面 回归 例子 中 出 现 的 几 种 可 能 工具 。 第 一 , 若 
有 双胞胎 数据 可 以 运用 , 则 双胞胎 受 教 育 水 平 可 用 作 工 具 变 量 , 因 为 双胞胎 受 教育 
水 平 可 能 是 相关 的 。 于 是 ,工具 变量 估计 的 一 致 性 要 求 测量 误差 v 与 双胞胎 受 教 
育 的 任何 测量 误差 之 间 没 有 相关 性 。 第 二 ,更 一 般 地 讲 , 与 受 教 育 相 关 的 其 他 变量 
比如 父母 亲 的 教育 水 平 或 收入 可 用 于 工具 变量 。 第 三 ,进行 调查 时 ,可 能 要 求 受 教 
育 水 平 不 止 一 个 方程 ,或 者 如 果 数 据 来 自 面板 研究 时 , 受 教育 水 平 可 利用 其 他 年 份 
的 调查 。 这 类 工具 变量 可 能 与 x 高 度 相 关 , 但 在 本 例 中 ,关于 测量 误差 x 与 z 之 间 
不 相关 的 假设 就 更 难 令 人 信服 。 

清 后 变量 经 常用 作 工 具 变量 ,可 是 这 些 滞后 变量 同样 拥有 测量 误差 ,因而 只 要 
测量 误差 的 序列 相关 不 是 一 个 问题 ,该 方法 就 会 最 小 限度 地 得 到 满足 。 

在 面板 背景 下 ,测量 误差 的 效应 可 以 很 大 。 由 于 面板 数据 提供 了 多 时 期 测量 ， 
所 以 一 旦 假定 各 个 不 同时 期 xz 有 不 相关 的 测量 误差 ,工具 变量 估计 就 能 用 于 给 出 
一 致 参数 估计 值 ,参见 萧 政 (Hsiao，1986, 第 63 一 65 页 )。 


26. 3.3 经 由 额外 算 约 来 的 区 区 


有 关 方 程 与 测量 误差 (u,v) 的 分 布 假设 ,能 够 确保 识别 。 存 在 一 种 重要 情况 ， 
即 识别 可 借助 错误 测量 变量 的 不 可 观测 真实 值 的 分 布 信息 或 假设 。(y,x,x* ) 的 联 
合 多 元 正 态 性 假设 ,以 及 测量 误差 v 与 方程 误差 x 分 别 服从 iid WLo,oj 与 iid 
人 WL0,oj 的 假设 ,这 些 假设 一 起 并 不 足以 识别 测量 误差 模型 。 不 过 , (x* ,u,v) 的 前 
四 阶 矩 存在 假设 ,同时 每 一 个 变量 的 三 阶 矩 以 及 三 阶 交 又 矩 都 是 非 零 的 假设 一 起 


微观 经 济 计量 学 


MM 


才能 保证 识别 ,而 后 一 个 假设 表明 违背 了 正 态 性 ,正如 现在 我 们 所 要 阐述 的 。 
重新 考察 模型 (26. 10) : 


y=Br’ 十 & 

Z 一 六 十 了 
其 简化 式 为 y 一 hz 十 s, 可 通过 工具 变量 方法 加 以 估计 ,这 里 ,es 一 x 一 各。 不 过 ,现在 
增加 一 个 新 信息 :zx* 的 分 布 在 下 面 意义 中 不 是 正 态 的 , 即 不 论 其 偏 度 还 是 峰 度 均 
表现 出 非 正 态 性 。 参 见 元 拉 格 (Gragg，1997)、 达 格 奈 斯 和 达 格 奈 斯 (Dagenais and 
Dagenais，、1997) .万 斯 比 充 和 梅 杰 (Wansbeek and Meijer，2000)。 这 些 假设 药 含 
着 下 述 6 个 条 件 : 


ELCzy)zj 王 BELz3 ]， E[(Czy)z] 一 0 
E[ (x:)zr|=E[lzx’ ] 十 EL ， ElCxr)ul|l=— BEL | 
ELCy2 zj 一 82ELz23 |]， El (y )u|=—B8E| (ei)| 


第 一 行 蕴 含 , 当 ELzx” j] 关 0 时 , 积 变 量 ziy; 是 一 个 有 效 工 具 。 第 二 行列 含 , 当 
E[ x*j] 关 0 但 ELwj] 二 0 时 ,zx? 是 一 个 有 效 工 具 ; 也 就 是 说 ,x* 是 非 正 态 的 但 vv 服从 
正 态 分 布 。 实 际 上 ,出 现 偏 度 越 大 , 则 工具 变量 就 越 好 。 不 过 ,由 于 x* 是 不 可 观测 
的 ,所 以 关于 x* 的 任何 推导 都 将 需要 建立 在 x 基础 上 。 最 后 一 行 蕴 含 , 当 x* 的 三 
阶 和 矩 是 非 零 的 但 e 的 三 阶 矩 却 为 0 时 ,yy 是 一 个 有 效 工 具 。 

已 知 这 些 短 条 件 , 利 用 工具 变量 方法 能 一 致 估计 出 该 模型 参数 。 此 例子 阐明 ， 
在 除 (y; yzi) 以 外 没有 其 他 数据 可 利用 时 ,额外 和 矩 假 设 如 何 帮助 生成 有 用 工具 。 


26. 3. 4 重复 产 据 


如 果 要 估计 测量 误差 方差 ,那么 可 能 有 一 种 可 供 选 择 的 求解 方法 。 其 基本 思 
想 如 下 ,我 们 借助 于 某 个 依赖 于 测量 误差 的 方差 与 协 方差 ,能 够 调整 回归 元 的 样本 
二 阶 和 矩 矩阵 关 XX。 注 意 , 我 们 确实 没有 试图 调整 观测 值 本 身 。 不 过 ,可 对 样本 和 矩 加 
以 调整 ,因为 估计 量 是 那些 样本 和 矩 的 函数 。 这 种 重要 思想 ,也 可 被 推广 到 更 复杂 
型 上 。 

当 已 知 测量 误差 方差 五 ,时 ,B 的 一 致 估计 值 能 利用 


B=(XX—NE,) 'X’y (26. 14) 
来 获得 ,其 中 , N 表示 样本 量 。 该 估计 量 是 一 致 的 ,因为 ， 
B=plim(N- XX—E,) plim NIXy 
(Er 二 TE, E,) Dx 
= 
其 中 ,plim N 1Xy = 二 wiB8 是 利用 X= 一 X* 十 V 与 y 二 和 XB 十 (u 一 VB) 得 到 的 。 关 于 
实际 应 用 中 估计 五 ,方法 的 详细 考虑 ,参见 克拉 什 斯 基 (Krashinsky,，2004)。 


重复 数据 (data replication) 是 下 面 一 种 情况 :有 不 可 观测 X* 的 无 偏 估 计 值 可 
以 利用 。 假 定 测量 误差 是 可 加 的 ,并 且 有 一 个 可 观测 的 XX: 


O60” 测量 误差 模型 


X 一 A 十 V 


在 X 是 X-* 的 无 偏 估计 值 , 则 EL[V|X*] 二 0。 当 数据 得 以 复制 时 ,这 直接 意味 着 我 
们 至 省 有 XX 的 两 个 测量 值 可 以 利用 。 它 也 意味 着 ,运用 多 重 测量 值 能 获得 V 的 矩 
估计 ,一 旦 假定 多 重 测量 的 三 则 量 误差 都 是 不 相关 的 。 

假定 有 两 个 纯 量 (重复 值 )X 与 Xe ,使 得 XX 一 X* 十 Vo,, i 二 1,2。 那 么 ， 
VIVo, |=ELX., J—ELX,, Xc) ,该 值 可 通过 样本 平均 值 NT 2 Xo. 一 XXX 
来 估计 。 于 是 ,运用 式 (26. 14) 估 计 回 归 参 数 。 

例如 ,假定 我 们 想 要 用 高 中 SAT 测试 所 取得 的 成 绩 预测 大 学 一 年 级 的 年 级 平 
均 分 数 (GPA)。 众 所 周知 ,对 SAT 而 言 ,观测 分 数 会 随 着 不 同 测试 而 变化 。 设 x* 
表示 真实 SAT 分 数 , 并 设 zi 与 x; 表示 两 次 不 同 SAT 测试 的 观测 SAT 分 数 。 于 
是 ,zi 一 XT" 十 vl 1 一 并 二 vw ,还 假定 U1l 与 U? 是 独立 的 且 有 相等 的 方差 。 由 此 可 
得 ,Cov[L zi， Xx2 | = or 9 VLz = VL = ax 十 as， 而 且 Covi[ x1, xz | = gi/ 
(oz 十 oo)。 研 究 发 现 , 该 测试 拥有 可 靠 性 0. 9, 这 意味 着 ,从 一 次 测验 到 另 一 次 测 
验 的 相关 性 为 0. 9, 从 而 相关 性 平方 为 0.81。 因 而 ,oz /(c. 十 吧 ) 一 0. 81。 由 式 
(26. 8) 可 得 ,plim 8 二 0. 81XB, 正 因为 测量 误差 的 缘故 ,与 普通 最 小 二 乘 回归 得 出 
的 结论 相 比 ,SAT 分 数 作为 一 年 级 大 学 GPA 的 更 好 预测 公式 。 


26. 3.5 核实 数据 


有 时 ,核实 样本 也 可 能 当 作 对 最 初 响应 的 另 一 种 检查 。 尽 管 核 实 样本 (valida- 
tion sample) 属 于 关注 总 体 , 但 它 可 能 来 自 不 同 的 独立 来 源 。 例 如 ,病人 对 所 受 医 
疗 服务 问卷 的 回答 ,而 服务 提供 者 对 核实 调查 做 出 反应 。 另 一 个 例子 是 ,雇员 提供 
了 一 个 事件 的 某 种 信息 ,该 信息 可 由 老板 那里 得 到 的 同样 信息 来 核实 。 经 济 学 中 
的 一 个 重要 例子 是 ,由 邦 德 等 人 (Bound et al, ，1994) 进 行 的 PSID 核实 研究 。 

设 必 表示 回归 元 的 观测 值 N XK 阶 和 矩阵 ,具有 测量 误差 ,并 设 X, 表示 核实 数 
据 的 MXK 阶 和 矩阵 。 我 们 借助 X, 的 列 对 X 回归 来 运用 核实 数据 ,并 生成 预测 值 
X[X XXX 以 此 代替 误差 污染 矩阵 X。 对 于 非 线性 模型 ,就 要 用 更 复杂 的 方 
法 ,参见 李 和 塞 帕 斯 基 (Lee and Sepanski，1995 ) 。 

假如 需 使 预测 来 自 拟 合 良 好 的 回归 ,那么 将 生成 回归 元 代入 关注 回归 之 中 的 
做 法 是 一 种 实用 的 实际 策略 。 生 成 回归 元 是 真实 值 的 估计 值 ,从 而 受到 估计 不 确 
定性 的 限制 。 就 这 点 而 论 , 在 对 回归 系数 样本 方差 进行 估计 时 ,应 该 将 这 种 不 确定 
性 考虑 进去 。 有 关 理 论 已 在 6.8 节 阐述 。 


26. 4 ” 非 线 性 模型 测量 误差 


正如 上 面 清 晰 阐述 的 , 非 线 性 模型 包含 了 大 量 的 令 人 困惑 的 模型 内 容 。 要 得 
到 可 应 用 于 广泛 模型 的 一 般 性 结果 ,比如 衰减 偏 倚 , 这 是 一 项 重要 的 挑战 。 并 不 令 
人 感到 尺 讶 的 是 ,一 般 性 结果 都 在 简化 假设 下 获得 ,而 特定 的 结果 则 更 多 注重 于 特 
殊 数据 的 复杂 性 及 设 定性 。 因 此 ,文献 中 该 专题 的 研究 已 经 产生 许多 程序 及 方法 ， 
它们 都 是 针对 特殊 模型 加 以 考虑 的 ,出 现 这 种 情形 就 不 足 为 奇 了 。 例 如 ,在 探索 左 
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边 有 测量 误差 的 二 值 结果 模型 时 ,自然 关注 错误 分 类 问题 ,而 在 研究 左边 同样 有 测 
量 误差 的 计数 模型 时 ,等 价 做 法 会 关注 报告 不 足 或 报告 过 度 的 问题 。 正 是 由 于 这 
类 困难 的 推动 , 萧 政 (Hsiao，1992) 将 对 一 般 模 型 求解 的 关注 重点 转向 问题 特定 形 
式 上 。 当 泗 铸 特定 模 型 结果 时 ,会 引发 简单 化 与 一 般 性 结果 直觉 观点 的 丧失 。 因 
此 ,我 们 以 茶 些 选 择 的 一 般 性 结果 开始 讨论 。 


26. 4. 1 通过 工具 变量 识别 


线性 变量 误差 模型 的 一 般 方 法 是 工具 变量 法 。 对 于 (关于 回归 元 ) 非 线性 回归 
模型 , 雨 官 (Amemiya，1985) 已 经 证 明 , 工 具 变 量 估计 量 通常 是 非 一 致 的 ,只 有 在 
使 误差 协 方差 矩阵 变 小 的 假设 下 , 才 会 得 出 一 致 估计 。 

对 前 面 提 及 观点 的 一 种 简单 解释 是 ,建立 在 回归 方程 


7 一 记 十 三 ) 十 s (26. 15) 


基础 上 ,其 中 ,f(x*) 是 无 误差 纯 量 回归 元 x* 的 光滑 、 可 微 以 及 有 界 的 函数 。 观 测 
变量 TT 二 X* 十 v, 其 中 让 表示 测量 误差 。 将 x 代入 ,并 利用 f(x 一 v) 在 本 附近 的 泰 
勒 级 数 展 开 式 ,得 到 : 


下 


y=B+TB f(r te—B 大 (rutp Dj fF (Xu) /7! (26, 16) 


7 一“ 


其 中 ,fC() 表 示 人) 的 第 7 阶 导 数 。 考 虑 二 次 形式 f(x)= 二 十 yx, 从 而 
FMCz) 一 27 十 y，j2 (zz) 一 2 而 APGz) 一 0，7 >>2。 因 而 : 


y 二 BR 十 B(x 十 YT) 十 e 一 BB (2x 十 7Y)v 十 B12 /2 
= +Birx Th yrt+ (ep ruv—Pyvt pw) (26. 17) 


所 以 ,有 效 工具 变量 应 与 x 及 xz 相关 ,但 与 二 (e 一 Bxv 十 BYv 十 Bw ) 不 相关 。 很 
明显 ,与 s 各 日 部 与 工具 无 关 , 这 还 不 够 。 这 意味 着 , f(x) 的 工具 变量 要 满足 的 
条 件 比 线性 情况 更 为 严格 。 

更 一 般 地 讲 , 使 用 泰勒 级 数 加 以 近似 , 雨 宫 已 经 证 明 , 非 线性 变量 误差 模型 的 
工具 变量 并 不 会 产生 一 致 佑 计 值 ,因为 残 差 项 既 包 括 测 量 误 差 又 包括 观测 误差 污 
染 变 量 。 因 此 ,不 可 能 找到 那 种 与 观测 变量 高 度 相 关 并 日 与 残 差 项 不 相关 的 工具 
变量 。 此 外 ,从 应 用 观点 看 ,并 不 容易 验证 用 于 估计 的 工具 变量 的 有 效 性 ,原因 在 
于 潜 变 量 (x* ) 与 测量 误差 的 信息 有 限 。 


26. 4. 2 用 重复 数据 识别 


当 人 们 面临 实施 工具 变量 形式 估计 方法 过 到 困难 时 ,存在 两 种 可 供 选 择 的 其 
他 方法 。 第 一 种 方法 是 ,对 给 定 观 测 值 x 时 不 可 观测 z "的 条 件 分 布 做 出 非常 强 的 
分 布 假设 。 这 类 假设 可 由 其 他 技术 性 条 件 得 以 扩大 ,使 得 对 模型 参数 识别 成 为 可 
能 。 该 方法 遵照 十 官 (Amemiya，1985)、 萧 政 (Hsiao，1989) 以 及 其 他 研究 者 的 探 
索 有 路 线 ，。 

第 二 种 方法 是 ,考虑 拥有 每 一 个 不 可 观测 x*( 记 为 zx) 的 大 量 测 量 值 的 可 能 
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性 。 那 么 ,每 个 三 的 重复 测量 的 平均 值 代替 不 可 观测 回归 元 。 由 于 当 重 复 次 数 不 
断 增 大 时 ,测量 误差 的 协 方差 矩阵 收缩 到 0, 所 以 得 到 非 线 性 回归 的 一 致 估计 , 参 
见 雨 官 (Amemiya，1985) 。 不 幸 的 是 ,此 类 情况 在 经 济 计量 学 中 极 少 遇 到 。 

由 于 非 线性 测量 误差 模型 确实 不 存在 能 用 于 识别 与 估计 回归 模型 的 共同 结构 
信息 ,所 以 我 们 考察 某 些 特定 的 非 线 性 回归 模型 。 

瞪 斯 曼 . 纽 韦 和 鲍威尔 (Hausman， Newey，and Powell，1995) 分 析 了 利用 消 
费 文 出 调查 数据 的 多 项 式 恩格尔 曲线 。 他 们 所 用 的 多 项 式 关 于 参数 为 线性 的 。 他 
们 已 经 证 明 ,在 正则 条 件 下 ,不论 是 工具 变量 还 是 额外 测量 ,都 能 用 于 获得 一 致 日 
服从 新 近 正 态 分 布 的 估计 值 。 在 这 个 应 用 中 ,将 邻近 季度 处 理 成 重复 的 ,并 看 成 一 
个 工具 变量 。 他 们 进一步 提出 ,通过 多 项 式 函 数 通 近 一 般 非 线性 函数 。 不 过 ,他 们 
认为 ,在 此 情况 下 不 能 实施 工具 变量 方法 ,从 而 需要 真实 回归 元 的 另外 测量 。 

李 (Li，2002) 提 出 非 线性 变量 误差 问题 的 一 般 两 阶段 方法 ,该 方法 依赖 于 重 
复 测 量 。 在 第 一 阶段 ,依据 经 验 特 征 函 数 与 和 傅 里 叶 道 变换 ,可 获得 潜 变 量 条 件 密度 
的 非 参 数 佑 计量。 阁 运 用 此 估计 量 , 半 参 数 非 线 性 最 小 二 乘 估 计量 可 借助 于 最 小 
距离 准则 建立 起 来 。 他 证 明了 ,该 估计 量具 有 一 臻 性。 而且, 该 估计 量 在 如 下 意义 
下 古称 健 的 , 即 它 不 需要 潜 变 量 滑 数 形式 的 任何 知识 。 李 方法 能 应 用 到 任意 非 线 
性 变量 误差 的 情况 ,假如 有 重复 测量 可 以 利用 。 可 是 ,该 估计 量 的 渐 近 分 布 尚未 建 
立 起 来 。 


26. 4.3 办 变量 测量 误差 


在 线性 回归 模型 中 , 因 变 量 测量 误差 会 使 回归 系数 的 标准 误差 变 大 ,但 不 会 导 
致 估计 量具 有 非 一 致 性 。 在 非 线 性 模型 中 ,同样 情况 则 存在 另 一 些 后 果 ， 
| 一 类 应 用 问题 是 ,考虑 定性 选择 模型 对 响应 的 错误 分 类 。 这 就 产生 了 报告 误 
差 方 面 的 文王 。 

离散 选择 模型 

波 特 巴 和 萨 默 斯 (Potorba and Summers，1995) 利 用 CPS 数据 研究 了 失业 保 
险 对 失业 持续 期 限 的 影响 ,将 概率 模型 推广 到 可 考虑 劳动 力 市 场 状态 过 渡 的 错误 
分 类 情况 上 。 特 别 地 ,他 们 关注 三 种 类 型 ;就 业者 ,失业 考 以 及 非 劳 动力 的 潜在 分 
类 误差 。 他 们 探索 了 数据 集合 具有 特定 性 质 时 的 多 项 式 logit 模型 : 即 假定 所 有 个 
体 在 第 一 次 调查 中 均 被 正确 报告 为 失业 者 。 他 们 结果 表明 ,失业 保险 会 使 失业 时 
期 增 大 ,同时 对 劳动 力 市 场 状 态 错误 分 类 进行 校正 ,会 增强 失业 保险 对 持续 期 限 长 
度 影 啊 的 明显 作用 。 不 过 ,他 们 的 模型 建立 在 如 下 假设 基础 上 , 即 假定 报告 误差 的 
概率 是 固定 的 有 旦 与 个 体 特征 不 相关 ,这 一 点 正如 作者 承认 的 ,“ 在 实际 应 用 中 可 能 
成 立 ”。 尺 管 作 者 声称 :参数 是 一 致 的 ,但 豪 斯 曼 、 阿 布 拉 瓦 亚 和 斯 科 特 ， 莫 顿 
(Hausman，Abrevaya，and Scott-Morton，1998) 已 经 论证 ,标准 误差 是 非 一 至 估 
计 的 ,原因 在 于 忽略 掉 估 计 误 差 概率 的 抽样 变异 性 以 及 信息 矩阵 的 非 分 块 对 角 
形式 。 

坚 斯 曼 等 人 (Hausman et al. ,1998) 提 出 ,估计 带 有 错误 分 类 的 二 值 选择 模型 
的 一 种 参数 方法 。 可 是 ,他 们 的 参数 模型 需要 误差 分 布 的 知识 。 他 们 强调 , 若 分 布 
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不 服从 假定 参数 分 布 , 则 其 参数 估计 可 能 是 非 一 致 的 。 

此 外 ,他们 引入 了 两 阶段 半 参 数 方法 。 为 了 识别 ,该 模型 的 关键 性 条 件 是 , 观 
测 因 变量 的 期 望 值 是 基本 指标 的 增 函 数 , 他 们 证 明 , 此 条 件 比 参数 模型 识别 的 条 件 
黑 哗 一 些 。 与 波 特 巴 和 了 李 默 斯 方法 相 比 ,他 们 的 估计 在 错误 分 类 概率 是 个 体 特征 
函数 的 意义 下 是 稳健 的 。 他 们 利用 CPS 与 PSID 证 明 , 工 作 变 动 变 量 存在 严重 错 
误 分 类 。 

克 莱 因 和 含 曼 (Klein and Sherman，1997) 针 对 潜在 新 录像 产品 的 预计 需求 佑 
计 ,发展 出 一 种 “轨道 模型 (Orbit model)( 具 有 有 序 选 择 模 型 与 模型 的 特性 ) 。 他 
们 发 现 , 淤 在 消费 者 伟大 了 需求 。 该 轨道 模型 是 一 种 两 阶段 方法 ,其 第 一 阶段 估计 
实际 未 来 需求 的 标准 Tobit 模型 参数 , 而 第 二 阶段 则 估计 当前 预计 需求 与 实际 未 
来 需求 之 间 的 映射 函数 。 此 外 ,他 们 建立 了 轨道 估计 量 的 一 致 性 与 渐 近 正 态 性 。 
不 过 ,识别 该 模型 需要 下 述 假设 :未 来 预计 零 需求 将 正好 是 零 需 求 。 这 可 能 是 一 个 
强 假设 。 

萧 政 和 孙 (Hsiao and Sun，1999) 运 用 先进 电子 设备 需求 方面 的 市 场 调 查 数 
据 。 他 们 证 明 ,调查 对 象 可 能 报告 出 有 偏差 的 需求 。 他 们 提出 一 种 随机 化 报告 模 
型 以 及 过 高 报告 的 单 边 啊 应 偏 从 模型 ,其 中 ,不 同 参数 概率 被 指派 为 真实 选项 或 可 
供 选 择 项 (包括 真 实 的 ), 对 于 真实 显示 性 偏好 来 说 ,有 logit 或 probit 密度 函数 。 
他 们 发 现 , “数据 存在 大 量 的 响应 偏 倚 , 若 与 那些 调查 对 象 真实 表现 其 偏好 所 得 出 
的 估计 值 相 比 ,修正 的 市 场 率 及 价格 弹性 似乎 显得 更 有 道理 ”。 

计数 回归 

在 非 线 性 计数 回归 背景 下 , 卡 梅 伦 和 特 里 维 迪 (Cameron and Trivedi，1998) 
提出 了 ,在 可 能 未 充分 记录 条 件 下 ,对 计数 数据 进行 建 模 的 方法 。 该 方法 通过 考虑 
二 值 记 录 结 果 产 生 了 一 种 复合 当 松 模型 与 负 二 项 计数 模型 。 具 体 地 讲 , 就 事件 的 
每 一 种 单个 结果 而 言 , 贝 努 利 试 验 用 于 确定 事件 是 否 被 记录 。 已 知事 件 可 能 未 被 
记录 的 概率 为 正 的 , 则 记录 事件 分 布 的 均值 与 方差 均 会 小 于 实际 事件 的 分 布 情况 。 
他 们 进一步 用 似 然 估 计 、 淮 广义 伪 极 大 似 然 法 以 及 基于 矩 方法 研究 了 模型 估计 。 
他 们 运用 蒙特 卡 罗 方 法 进行 研究 发 现 , 信 用 极 大 似 然 估计 量 的 效果 在 样本 量 为 50 
或 更 多 时 表现 良好 。 

乔丹 等 人 (Jordan et al ，1997) 曾 经 给 出 泊 松 回归 模型 中 误差 变量 的 一 个 应 
用 。 在 对 日 本 5 个 省 份 因 胃 疤 死亡 的 研究 中 ,他 们 注意 到 , 协 变 量 ( 比 如 血浆 番 茹 
红 素 水 平 ) 是 未 知 的 ,并 通过 随机 选择 的 全 体 人 员 加 以 估计 ,因而 受 限 于 抽样 误差 。 
运用 测量 误差 服从 正 态 分 布 的 假设 ,他 们 借助 于 训 布 斯 抽样 获得 参数 的 后 验 分 布 ， 
再 据 此 实施 贝 叶 斯 方法 。 其 结果 显示 , 当 最 初 样本 很 小 时 ,修正 模型 会 得 出 参数 更 
准确 的 估计 值 。 


26.4.4 人 洛 有 了 扰 变 重 调 熏 族 老 的 当 松 厅 她 


现在 ,我 们 以 更 详细 的 方式 考察 非 线 性 回归 模型 含有 协 变 量 可 加 测量 误差 的 
一 个 特定 例子 。 用 该 例子 既 可 阐明 此 类 测量 误差 的 后 果 , 又 可 说 明 可 行 合计 策略 。 
蔚 和 李 (CGuo and Li，2002) 已 经 证 明 , 协 变量 测量 许 差 一 般 会 导致 观测 数据 出 
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现 过 度 分 散 。 他 们 还 运用 蒙特 卡 罗 模 型 证 明 ,倘若 由 测量 误差 引起 的 过 度 分 散 没 
有 被 正确 建 模 成 因 不 可 观测 蜡 质 性 而 导致 的 过 度 分 散 , 则 将 出 现 偏 倚 。 因 此 ,人 们 
不 应 因 有 过 度 分 散 就 得 出 下 述 结 论 , 即 保证 模型 有 具有 不 可 观测 异 质 性 。 

斯 特 凡 斯 基 (Stefanski，1989) 与 中 村 (Nakamura，1990) 都 曾经 提出 一 种 修正 
得 分 佑 计量 (corrected score estimator) , 当 存 在 测量 误差 时 ,该 估计 量 是 一 致 的 。 
尤其 是 ,中 村 (Nakamura，1990) 给 出 了 当 测 量 误差 服从 正 态 分 布 , 并 且 还 可 利用 
重复 数据 时 ,修正 得 分 果 数 的 一 种 闭 形 式 。 与 之 相 比 , 郭 和 李 (Guo and Li，2002 ) 
则 推广 了 中 村 方法 。 

测量 误差 与 过 度 分 散 

本 节 考 察 油 松 回 归 模 型 ,其 中 ,离散 随机 变量 > 服从 泊 松 分 布 ,该 分 布 参数 4 一 
exp(x"'B),B 表示 K X1 维 参数 。 众 所 周知 , 泊 松 回归 模型 具有 等 分 散 性 质 , 即 : 


El y|x’ |=V|y|x’| (26. 18) 
各 测量 误差 为 可 加 的 , 则 : 
xX 一 X* 十 & 


其 中 ,e 被 假定 为 与 不 可 观测 潜 变 量 x* 是 独立 的 ,e 的 均值 为 0 且 方 差 协 方差 矩阵 
是 5. 。 此 符号 涵盖 了 所 有 解释 变 量 或 部 分 解释 变量 测量 时 具有 误差 。 

测量 误差 会 增 大 分 散 性 [ 切 舍 (Chesher，1991)1]。 这 适用 于 下 述 意 义 上 的 泊 
松 回 归 , 即 虽然 式 (26. 18) 对 于 给 定 x* 时 y 的 条 件 均 值 与 方差 来 说 成 立 , 但 以 x 为 
条 件 却 改变 了 结果 。 相 反 ,我 们 得 到 ,El y|xj 二 VLy|xj, 部 分 原因 在 于 ELy|x j] 关 
ELy|x ,并 且 VLylx' ] 关 VLy|xj。 

如 果 用 g(x |x) 表 示 给 定 x 时 x 的 条 件 密度 ,那么 郭 和 李 已 经 证 明 : 


ELy|x] = |ELy|x JgCx | wdx 
= |ELy' Ix jax ldx —|(ELylx D’gx lwdx (26.19) 
并 且 使 用 式 (26. 18) ,给 定 x 时 y 的 条 件 方差 是 : 
Vly|x|]= |ELy | |gCx’' |x)dx’ 一 | ELy |x jeCx’ | dx | (26. 20) 


通过 比较 式 (26. 19) 与 式 (26. 20) 可 以 发 现 , 式 (26. 19) 插 号 内 的 第 一 项 与 式 
(26. 20) 第 一 项 是 一 样 的 。 利 用 这 一 点 , 训 和 李 曾 经 证 明 : 


2 
[ELy lx JgCx ax | <|ELy | x |): g(x |x)dx’ (26. 21) 


该 式 被 解释 成 测量 误差 导致 了 过 度 分 散 。 
测量 误差 模型 的 估计 
当 x 被 测量 误差 所 污染 时 ,基于 可 观测 值 C(y,x) 的 极 大 似 然 估 计 或 非 线性 最 小 
二 乘 估计 并 没有 给 出 其 一 致 估计 。 当 协 变量 x 被 x 代替 时 , 则 称 为 < 朴素” 模型。 
这 种 考虑 存在 两 个 问题 。 第 一 , 当 存在 测量 误差 时 ,为 什么 用 极 大 似 然 法 得 出 
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非 一 致 估计 ? 第 二 ,会 有 一 致 估计 吗 ? 假如 我 们 采用 遵照 斯 特 凡 斯 基 (Stefanski， 
1989) 与 中 村 (Nakamura，1990) 的 广义 线性 模型 的 修正 得 分 估计 方法 , 则 对 第 二 
个 问题 的 回答 为 “有 一 致 估 计 ”。 

支撑 修正 得 分 估计 量 的 思想 是 ,给 定 真实 自 变量 x 与 应 变量 y, 关 于 x 修正 估 
计 的 条 件 分 布 是 以 极 大 似 然 估 计 值 为 中 心 的 ,这 提供 了 关注 参数 真实 值 的 一 致 
估计 。 

非 一 致 估计 量 与 一 致 估 计 最 

假定 N 个 观测 值 C(y ，x)， i 一 1,… ,NN 均 来 自 泊 松 分 布 ,其 概率 质量 函数 为 : 
em) ( Bo) 
yi 





Pr Y ,一 y， [x’ |= 


其 中 ,Mi (90) = exp(x’ [30). 已 知 观 测 值 (y; ; X )，7 一 ,2 八 ， 由 于 平均 对 数 似 
然 函 数 的 概率 极限 ， 


plim N InLCG) =N 1 (一 e By,x" BO— ln vy,!) (26. 22) 
~—E,xw[—e*?+yx BO—ln vy;!| 


在 2==B。 处 取 极 大 值 , 故 极 大 似 然 估计 量 B8 是 一 致 的 。 

假定 我 们 观测 到 Xs 而 不 是 x’ ,其 中 , X; OX 十 Ei， si 一 人 L0， 3 |， ei 与 Xi 是 独 
立 的 。 那 么 ,y; |x; 并 不 服从 泊 松 分 布 。 尽 管 如 此 ,车 人 们 使 用 “朴素 泊 松 模型 ”, 则 
所 得 到 的 估计 量 G 使 ; 


Q(B)=N {eet yx BIn yi!) (26. 23) 
达到 极 大 值 。 这 种 错误 设 定 对 数 似 然 函 数 收 敛 到 : 
plim Q(B)=E,xw[—e*s+yx olny!l]ti+E:[—e ?Ele?]—1) (26.24) 
一 般 地 讲 , 它 没有 在 8 二 B。 处 取 极 大 值 。 因 而 ,6B 关于 Bo。 是 非 一 致 的 。 


一 旦 对 目标 果 数 进行 适当 修正 , 则 会 得 出 一 致 佑 计量 。 式 (26. 22) 与 式 
(26. 24) 列 含 : 


(plim Q(P) —Ex [—e*?](E.[Les]—1)=plim NinLCO) 
这 建议 ,对 目标 函数 
Q CD) 一 六 (etyxB ln yl!) EL-e (ELe®]—1) 
求 极 大 值 , 因 为 Q'(B) 收 争 到 plim N71lnL(B)。 现 在 ,已 知 x' 与 e 是 独立 的 , 则 ; 
Ev [ee]Ele®]=E.L—e" ‘8]=— ELe"®] 

它 可 通过 一 N ' 2e” 6 得 到 一 致 估计 。 经 过 某 些 简化 运算 ,可 得 到 对 Q*(B) 求 极 
大 值 , 它 等 价 于 对 

QB)—N I (yxB ln y!}— ErLe®] (26. 25) 
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求 极 大 值 。 这 就 得 出 Bo 的 一 致 估计 。 当 具体 求解 时 ,需要 Ex [e*5] 的 合适 估计 
值 , 但 徊 可 利用 重复 数据 ,这 样 做 就 行 得 通 。 如 果 对 解释 变量 分 布 加 以 设 定 ,该 设 
定 至 多 相差 一 个 未 知 参 数 ,那么 这 些 未 知 参数 能 用 重复 测量 值 加 以 估计 。 因 此 ,就 
能 得 到 Ex [Le*51 的 估计 值 。 

对 式 (26. 25) 求 极 大 值 的 估计 量 友 ., 被 郭 和 李 (Guo and Li，2002) 称 为 修正 得 分 
估计 量 (corrected score estimator) ,因为 它 是 修正 得 分 洱 数 2,(yx 一 Ev [x*e*3] 二 0 
的 平方 根 。 吝 和 李 也 建立 了 该 估计 量 的 渐 近 正 态 性 。 佑 计 渐 近 协 方差 矩阵 
V[ 诬 ] 二 N'A-!1BA ! ,其 中 : 


A=Ex [e* Kx x”) 
B= N 一 1 >， (y; 》 EF, [e* A X 1) (y; A Fx [er 及 X ] ) ' 


中 村 (Nakamura，1990) 做 出 过 一 个 较 强 假设 :测量 旋 差 es 服从 正 态 分 布 
人 L0, 人 jj。 于 是 : 


exp(x” G) 一 ELexp(xXG 一 0999]2))] 
应 用 期 望 迭 代 律 : 
Ey [exp(x”B)1=E,Lexp(x 8— (8 8/2))] 


它 能 通过 N Zi[Lexp(xOG 一 (9 QB/2))] 得 到 一 致 估计 。 因 而 ,对 于 式 (26. 13) 中 
的 Q(B) 来 说 , 式 (26. 14) 给 出 的 概率 极限 可 简化 成 : 


plim Q(B) =N™ 2 [yx BC—ln y,!—exp(xB8— (8 8/2))] 


这 是 中 村 (Nakamura，1990) 曾 经 给 台 出 的 修正 对 数 似 然 函 数 ，。 对 B 求 极 大 值 ,会 得 
到 Bo 的 一 致 估计 值 。 

中 村 方法 提醒 人 们 注意 , 当 已 知 测量 误差 协 方差 矩阵 的 估计 倡 时 ,对 含有 测量 
误差 线性 回归 [参见 式 (26. 14) 进行 估计 的 一 种 方法 。 如 同 那 种 情况 一 样 ,为 了 获 
得 中 村 修正 对 数 似 然 函 数 的 极 大 值 , 人 们 需要 知道 Q 的 知识 , 即 测量 误差 的 协 方 
差 窍 阵 。 这 可 由 重复 数据 得 出 。 不 过 ,如 果 协 方差 在 多 数 情况 下 为 离散 的 ,那么 测 
量 话 差 正 态 性 就 是 一 个 不 切合 实际 的 假设 。 在 此 情况 下 , 鄂 和 李 的 估计 量 更 引 人 
注目 。 

对 于 多 变量 x* 的 情况 ,即使 已 知 x* 的 分 布 ,也 不 能 直接 计算 出 ELexp(Cx G )]， 
因为 此 时 涉及 多 重 积 分 。 而 基于 模拟 的 方法 | 李 (Li1，2002)| 提 供 了 该 问题 的 一 种 
可 行 方法 。 

其 他 几 种 非 线 性 变量 误差 模型 的 具体 求解 也 需要 重复 观测 值 ,例如 ,参见 萧 政 
(Hsiao，1992), 达 斯 最 、 纽 韦 和 人 饮 威 尔 (Hausman,， Newey, and Powell，1995 ) 。 
面板 数据 在 个 体 水平 上 提供 了 重复 观测 值 。 例 如 ,考察 下 面 纯 量 回归 元 x 的 情 
形 : 有 两 个 x 重复 可 利用 ,因为 zxij 二 zx; 十 8j ;对 于 i 二 1,…,N, J 二 1,2。 于 是 ,ot 的 
基于 矩 的 一 致 佑 计量 是 Oo: 一 之 /; (Xi 十 工 ?， ZXil Tio )/2N, 因而 ， 不论 是 X 的 均值 
还 是 x* 的 方差 , 均 能 被 估计 出 来 。 
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26.5 匡 减 偶 倚 模拟 例子 


线性 模型 的 解析 结果 已 由 26. 2 节 给 出 ,但 要 获得 非 线性 模型 的 结果 就 相当 困 
难 。 这 里 ,我 们 给 出 两 个 模拟 例子 ,一 个 是 logit 模型 , 另 一 个 是 关于 log 为 线性 的 
模型 ,以 阐明 含有 回归 元 测量 误差 的 非 线 性 回归 的 衰减 偏 倚 。 
在 第 一 个 例子 中 ,数据 生成 过 程 是 满足 下 述 条 件 的 logit 模型 : 
y" =a’ th’ xr’ te 
TT ~UlLl1,2j, EY 雇 辑 斯 带 分 布 
1]， 当 vy * 守 0 
其 复杂 情况 是 ,zx* 测量 时 有 误差 ,从 而 : 
XT 一 X* 十 v 


一 人 LO 于] 


由 于 xz” 一 ML0， 吉 ,其 方差 为 二 17/12, 信 品 比 是 * 王 12 必 。 人 们 可 以 估计 y 对 zx 
的 logit 回归 ;而 不 是 y 对 xz 的 logit 回归 。 

为 了 实施 模拟 演算 ,我 们 完成 y 对 x 的 logit 回归 ,使 用 包括 0 的 6 个 不 同 信 
噪 比 ,以 此 作为 标准 衡量 评估 该 模型 。 样 本 量 被 固定 在 1 000, 并 使 用 100 个 模拟 
重复 值 。 


表 26. 1 给 出 100 个 重复 值 的 (&,B) 平 均值 ,其 中 ,6 与 8 是 来 自 y 对 x 的 logit 
回归 ,而 不 是 y 对 z* 的 正确 logit 回归 ,估计 截 距 与 斜率 ,对 于 样本 N= 二 1 000 是 就 
o% 的 6 个 不 同 值 而 言 得 到 6 个 不 同 信 了 噪 比 *。 用 满足 ;二 0 的 第 一 列 衡 量 评估 该 模 
型 。 回 顾 同 样 背 景 下 普通 最 小 二 乘 线性 回归 斜率 系数 方面 的 乘法 偏 倚 分 别 是 
1/(1 十 s) 或 0.96.0.8.0.5.0.2 以 及 0.1。 此 处 , 偏 倚 有 类 似 方向 ,只 是 对 logit 回 
归 而 言 ,这 些 偏 倚 显 得 较 大 。 


表 26.1 含有 测量 误差 的 logit 回归 衰减 偏 倚 


癌 声 /信和 县 0 0. 04 0. 25 ] 4 9 
平均 < 0. 785 1. 062 1. 406 1. 548 1. 570 1. 596 
平均 8 1. 799 1. 224 0. 446 0. 125 0. 037 0. 012 


第 二 个 例子 是 一 个 二 变量 关于 对 数 为 线性 的 乘法 模型 ,其 中 ,a 二 2,8 二 0.4, 两 
个 变量 都 含有 可 加 测量 误差 。 在 这 种 情况 下 ,其 设置 如 下 : 


y=4x" au, wu ~ 人 AL10,0.000 1 
zx’ 二 100 十 [0,1 

y 一 十 ey，ey 一 MWLOay 

r=7x* te:, er:~NMIO0,o | 
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就 模拟 而 言 ,样本 量 为 1 000 ,而 复制 次 数 为 100 次 。 当 实验 不 断 进 行 时 ,我 们 
改变 x' 方 差 值 ,从 而 得 到 下 面 oi /ox 的 一 些 值 :0. 001,0. 01,0.1,1,5,10,50,100， 
1 000 和 5 000。 

表 26. 2 上 面 一 行 给 出 各 种 不 同 实 验 斜 率 系数 的 平均 值 ,其 信 品 比 也 不 断 变 
化 。 这 再 次 表明 ,衰减 偏 倚 非常 明显 。 

表 26.2 含有 可 加 测量 误差 非 线 性 回归 的 衰减 偏 倚 
oi /or 0. 000 25 0. 002 5 0. 025 0. 25 2.5 25 
平均 8 0. 393 0. 383 0. 341 0. 217 0. 063 0. 020 


这 两 个 例子 所 得 到 的 结果 与 支撑 “经 济 计量 学 铁 律 ”的 假设 相 一 致 。 
26.6 文献 注释 


运 今 为 止 , 万 斯 比 克 和 梅 杰 (Wansbeek and Meijer，2000) 的 书 是 从 经 济 计量 
学 的 视角 撰写 的 天 于 测量 误差 方面 的 最 新 的 和 最 综合 的 著作 。 从 深度 上 看 ,该 书 
涵盖 本 章 绝 大 多 数 专题 ,尤为 强调 线性 模型 。 作 者 还 在 该 书 中 提供 几 章 将 测量 误 
差 与 因子 模型 潜 变 量 模型 结构 方程 模型 联系 的 内 容 。 在 讨论 结果 时 ,作者 避免 
“可 以 证 明 ” 之 类 的 术语 文 持 他 们 的 详细 推导 。 男 外 ,此 斯 曼 (Hausman，2000) 也 
从 经 济 计量 学 视角 给 出 他 与 其 同事 人 研究 获得 最 新 结果 的 一 个 综述 。 邦 德 、 布 骨 和 
蕊 蒂 威 次 (Bound，Brown,， and Mathiowetz，2001) 针 对 劳动 力 市 场 的 测量 误差 问 
题 做 了 一 个 综述 。 

从 统计 文献 上 看 ,已 经 很 好 地 建立 测量 误差 专题 。 定 勒 (Fuller，1987) 的 书 是 
一 个 极为 有 用 的 参考 文献 ;尤其 是 ,可 以 看 到 , 当 已 知 信 噪 比 时 ,他 对 可 用 于 该 问题 
的 正光 回归 方法 进行 的 研究 。 尺 管 本 章 给 出 的 线性 模型 是 经 济 计量 文献 中 非常 标 
准 的 内 容 , 但 读者 也 应 注意 到 为 一 种 伯 殉 和 森 谋 差 模 型 (Berkson error model) , 其中， 
不 可 观测 真实 变量 被 假定 成 常 值 ,只 是 不 完美 测量 变量 受 限于 误差 ,而 安 格 里 斯 特 
和 到 和 鲁 格 (Angrist and Krueger，1999) 对 非 经 典 测 量 误 差 (nonclassical measure- 
ment error) 模 型 进行 了 讨论 。 马 丹 斯 基 (Madansky，1959) 给 出 了 早期 数值 结果 与 
方法 。 也 可 参见 斯 特 凡 斯 基 (Stefanski，2000) 。 

26.2 上 比 约 恩 (Biorn,，1992) 曾 经 分 析 了 含有 测量 误差 的 面板 数据 模型 。 

26.3 蕊 德 们 格 (Goldberger，1984) 与 格林 (Greene，1983) 在 对 康 韦 和 有 罗 们 
茨 (Conway and Roberts，1983) 的 评注 中 ,分 析 了 有 趣 的 逆 回 回归 。 利 默 (Leam- 
ef，1978) 已 经 从 贝 叶 斯 观点 中 提供 逆 回 回归 的 富有 座 刻 见解 的 讨论 。 哈 恩 和 花期 
曼 (Hahn and Hausman，2002) 运 用 逆 回 回归 观点 建立 了 关于 测量 误差 问题 工具 
变量 方法 有 效 性 的 设 定 检验 。 其 关切 内 容 是 ,可 利用 工具 可 能 是 弦 的 ,得 出 不 好 的 
估计 。 哈 恩 和 豪 斯 曼 思想 是 完成 正 向 回归 的 工具 变量 估计 ,这 里 的 错误 测量 变量 
出 现在 方程 右边 。 逆 向 回归 在 左边 具有 相同 的 错误 测量 变量 。 这 种 回归 通过 将 相 
同 工 具 变量 作为 正 回 回归 ,借助 于 工具 变量 也 能 得 以 估计 。 

26. 4 非 线性 模型 的 测量 误差 文献 显得 更 为 散乱 。 对 经 六 计量 学 家 来 说 ,十 
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官 (Amemiya,，1985) 的 书 尤 其 有 用 。 从 统计 观点 看 , 卡 罗 尔 等 人 (Carroll et al.， 
1995) 考 察 『 了 非 线 性 模型 ,特别 是 广义 线性 模型 ,回归 元 含有 可 加 的 测量 误差 ,所 用 
的 一 系列 方法 包括 有 重复 数据 可 利用 时 的 那些 方法 。 李 、 特 里 维 迪 和 郭 (Li， 
Trivedi，and Guo，2003) 发 展 并 应 用 了 一 种 测量 误差 变量 模型 ,其 中 , 计数 啊 应 变 
量具 有 测量 误差 。 


四 而 


26-1 考察 二 变量 误差 模型 斜率 参数 的 衰减 偏 倚 结果 [26.2.3 节 的 式 
(26. 9) |。 将 该 模型 推广 到 含有 截 中 项 的 模型 上 、。 

(a) 推导 类 似 的 截 距 项 的 测量 误差 偏 倚 结果 。 

(b) 推导 类 似 的 关于 最 小 二 乘 截 距 估 计 的 界 识别 ,这 类 似 于 26. 3.1 节 的 式 
(26. 12) 。 

26 -2 [改编 自 博 林 杰 (Bollinger，2003) 。] 考 察 如 下 形式 的 一 种 多 元 回归 模 
型 ,其 中 , 纯 量 回 归 元 过 测量 时 有 误差 ,而 其 他 回归 元 z 向 量 则 设 有 测量 误差 。 

(a) 维持 二 变量 误差 模型 的 测量 误差 假设 ,将 衰减 偏 倚 结 果 与 界 识 别 结果 推 
广 到 本 题 情 况 。 : 

(b) 检验 对 二 变量 情况 进行 专门 化 研究 的 那些 新 结果 。 

26-3 | 改编 自 万 斯 比 克 和 梅 杰 CWansbeek and Meijer，2000), | 考察 二 次 型 
回归 模型 y 二 a 十 Bx* 十 yx 十 e, 其 中 ,回归 元 x* = 二 x 十 vv 为 可 观测 的 ,而 wv 为 测量 误 
差 。 假 定 (x* ,e,v) 是 互 不 相关 的 且 服 从 正 态 分 布 ,同时 所 有 变量 均值 为 0。 

(a) 比较 8 与 7 的 最 小 二 乘 估 计量 偏 倚 。 

(b) 该 模型 是 可 识别 的 吗 ? 将 最 后 结果 与 来 自 二 变量 线性 变量 误差 模型 的 结 
果 加 以 比较 。 

26-4 代 际 流动 能 力 文 献 使 用 了 下 述 模 型 [ 索 伦 (Solon，1992); 齐 默 尔 曼 
(Zimmerman, 1992) |， 

Y!"? gpBYY*# eT (26. 26) 
其 中 ,si~iid ML0,o]。 这 里 ,Y 表示 持久 地 位 (诸如 持久 收入 ) 的 测量 ,8 测量 回归 
接近 于 经 济 地 位 平均 水 平 的 程度 。 假 定 不 可 以 观测 持久 地 位 。 可 是 ,当前 状况 Y， 
是 可 观测 的 ,并 满足 Yi =Y; 二 7yXi 二 wi ,因此 ,Y; 是 由 称 为 持久 地 位 的 个 体 固 定 
效应 Y; 系统 因素 XX 与 暂时 误差 成 分 ;所 构成 的 。 设 7 了 表示 最 小 二 屠 系 数 拟 合 ， 
并 设 : 
7 一 XXX 一 站 十 (7 一 7 w= Yt vw,, 

(a) 设 站 六 二 本 1 2),_1Y3 半 表示 父亲 地 位 平均 值 ,用 它 作为 自 变 量 , 以 此 作为 
式 (26. 26) 中 的 不 可 观测 持久 地 位 。 设 Bw 表示 相应 回归 系数 。 证 明 : plim Bw 二 
BPy ,其 中 ,Py 二 a2/(o2 十 T-1g2) 

(b) 假定 父亲 收入 的 暂时 成 分 遵从 下 面 自 回归 模型 ,内 亲 一 oz 十 名， 其 中 ， 
&~NMN[L0,] ,i 二 1,…, 了 证明; 现在 plim Bow 一 BPY ,其 中 , BPY 一 路/( 吃 十 
TW, V=oL T (pd d+209(T— (oD)/(— N/T pj; 
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27.1 引 论 


调查 数据 出 现 缺 失 现 象 是 因 调 查 问 题 无 回答 或 部 分 回答 而 引起 的 一 个 古老 问 
题 。 无 回答 的 理由 包括 :不 愿意 提供 所 问 信息 .很 难 回忆 赵 过 去 发 生 的 事件 .不知 
道 正 确 的 回答 。 佑 算 (17Cimputation) 是 一 种 估计 或 预测 缺失 观测 值 的 过 程 。 

在 本 章 ,我 们 研究 含有 数据 向 量 的 回归 背景 ,这 里 的 数据 向 量 为 (yx ), 一 
1，……N。 对 于 某 些 观测 值 来 说 ,x 的 某 些 元 素 或 (yx ) 元 素 之 中 的 某 些 元 素 出 现 
缺失 。 因 而 ,需要 考虑 一 系列 问题 。 什 么 时 候 我 们 应 着 手 分 析 仅 有 完整 观测 值 ? 
什么 时 候 应 试图 填 上 由 缺失 观测 值 而 引起 的 缺口 ? 什么 样 的 估算 方法 可 以 利用 ? 
一 旦 获得 缺失 观测 值 的 估算 ,又 怎样 进行 估计 与 推断 ? 

假如 数据 集 出 现 缺 失 观 测 值 , 而 且 这 些 缺 口 能 利用 统计 上 合理 的 方法 加 以 填 
让 , 则 这 样 做 的 益处 源 于 拥有 更 大 的 且 可 能 更 有 代表 性 的 样本 ,并 在 理想 环境 下 可 
实施 更 准确 的 推断 。 估 计 缺 失 数据 的 成 本 来 自 做 出 支撑 生成 缺失 观测 值 代表 性 方 
法 的 (可 能 错误 ) 假 设 , 并 且 来 自任 何 这 种 方法 固有 的 近似 误差 。 另 外 ,在 用 估算 值 
代 蔡 缺失 数据 之 后 ,由 数据 扩充 而 引发 的 统计 推断 会 更 加 复杂 ,因为 此 类 推断 必须 
考虑 到 因 估 算 而 引入 的 近似 误差 。 

作为 调查 无 回答 与 因 一 组 调查 对 象 损 耗 而 出 现 数 据 缺 口 的 情况 经 常 发 生 。 对 
缺失 值 估算 可 能 由 官方 机 构 来 完成 ,以 此 生成 与 维护 公用 调查 数据 库 ,或 者 由 那些 
使 用 数据 建 模 者 完成 。 在 前 者 情况 下 ,官方 机 构 可 以 拥有 更 广泛 的 信息 ,包括 机 密 
信息 /秘密 信息 ,这 些 信息 能 在 估算 过 程 中 得 到 利用 。 在 后 者 情况 下 , 建 模 者 具有 
特定 的 建 模 框架 ,在 估算 过 程 时 , 则 要 利用 这 种 建 模 框架 。 

一 个 有 趣 的 缺失 数据 例子 是 ,在 消费 者 财政 调查 背景 下 (Survey of Consumer 
Finances)| 肯 尼 克 尔 (Kennickell，1998) | 出 现 的 问题 。 因 为 消费 者 财政 问题 极为 
敏感 ,所 以 调查 表 出 现 收入 与 财富 信息 的 大 量 缺 口 ,美国 联邦 储备 的 分 析 人 员 针 对 
连续 变量 与 离散 变量 ,发 展 并 实施 一 些 复杂 估算 算法 , 既 利 用 公开 可 用 的 收入 与 财 
富 的 调查 信息 ,又 有 来 自 人 口 普查 数据 的 保密 信息 。 


[1] 又 称 为 借 补 . 设 算 。 一 一 译 者 注 
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图 27. 1 给 出 回归 元 出 现 缺 失 数 据 的 某 些 潜在 模式 。 某 一 个 数据 集 具有 一 个 
纯 量 因 变 量 y 以 及 三 个 回归 元 zl 、xzz 、x3 ;它们 中 每 一 个 都 有 观测 值 ,那么 将 它们 
释放 成 (y, xi, xz,xs)。 在 A 组 调查 对 象 中 ,都 是 完整 数据 ,但 观测 值 x 有 一 些 缺 
失 , 了 组 调查 (y,xs ) 是 完整 数据 , 而 数据 (xx ) 出 现 缺失 值 ,使 得 x 与 xs 永远 不 
会 同时 被 观测 到 。C 组 调查 是 全 部 三 个 回归 元 都 出 现 缺失 观测 值 时 的 一 般 缺 失 观 
测 值 模 式 ,但 不 存在 特定 的 缺失 模式 。 


| 
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A: 单 变量 缺失 数据 模式 


Xa a 
四 


B: x 与 x 缺失 数据 特殊 模式 


C: 缺失 数据 的 一 般 模式 
27.1 缺失 数据 :缺失 回归 元 的 例子 


处 理 缺 失 数据 的 一 种 最 简单 方法 是 删 失 缺失 数据 ,然后 仅仅 分 析 人 简化 的 “ 完 
整 ” 观 测 值 样本 。 例 如 ,在 A 组 调查 对 象 中 ,完整 样本 是 由 xi 的 所 有 可 利用 数据 构 
成 的 (y, xi ,xz ,xs ) 的 子 集 。 不 过 ,在 B 组 调查 对 象 中 , 当 沿 用 这 种 方法 时 ,人 们 售 
弃 无 用 的 观测 值 , 除 非 人 们 从 分 析 中 去 掉 (x ,xz )。 在 C 组 调查 对 象 中 ,完整 数据 
集 是 在 删除 任何 包括 三 个 回归 元 当中 任 一 个 出 现 缺 失 数 据 的 观测 值 之 后 形成 的 。 

上 述 方法 称 为 成 列 删除 (listwise deletion) 。 该 方法 已 被 广泛 采用 ,并 且 经 营 是 
统计 软件 的 默认 选项 。 此 方法 不 一 定 无 害处 ;其 结果 依赖 于 缺失 数据 机 制 , 而 且 从 
这 种 研究 中 得 出 的 结论 可 能 出 现 严重 人 缺陷。 当然 ,一 般 地 讲 , 丢 掉 数 据 意味 者 于 把 
信息 ,同时 将 降低 估计 效率 。 因 此 ,倘若 归 因 于 缺失 数据 的 缺口 以 能 不 产生 曲解 的 
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方式 得 以 填补 , 则 成 列 删除 看 起 来 似乎 值得 党 试 ,本 章 将 研究 其 他 一 些 可 供 选 择 的 
方法 及 其 局 限 性 。 

广义 地 讲 , 估 算 存 在 两 种 方法 ,一 种 是 基于 模型 方法 (model-based) , 另 一 种 则 
不 是 基于 模型 方法 。 第 一 种 方法 运用 模型 对 缺失 观测 值 加 以 设 定 , 然 后 使 用 得 到 
的 完整 数据 集 去 获得 模型 参数 的 更 好 估计 。 该 过 程 是 反 反 复 复 的 。 单 个 估算 与 多 
重 估 算 都 是 可 行 的 。 现 代 方 法 的 一 个 重要 特征 是 ,将 缺失 数据 处 理 成 随机 变量 , 然 
后 用 从 假定 的 基本 分 布 中 抽取 的 多 重 值 来 代替 ,这 种 过 程 称 为 多 重 估算 (multiple 
imputation) 。 利 用 模拟 方法 可 通 近 这 类 分 布 。 

由 于 估算 是 微观 经 济 计量 研究 中 的 一 个 重要 方面 ,所 以 有 必要 将 此 专题 作为 
一 个 独立 又 简短 的 介绍 章节 。 调 查 数据 不 可 避免 地 包含 缺失 数据 ,一 种 普遍 做 法 
即 成 列 删除 就 是 一 个 估算 方法 。 还 可 利用 更 好 的 估算 方法 。 不 过 ,我 们 应 该 注意 
到 :所 有 估算 方法 均 建 立 在 假设 基础 上 , 而 在 某 些 应 用 中 ,有 些 估算 假设 是 根本 站 
不 住 脚 的 。 

本 章 大 部 分 内 容 研究 基于 模型 方法 。27. 2 节 介 绍 估算 文献 里 占据 主导 地 位 
的 术语 与 假设 。27. 3 节 给 出 不 使 用 模型 来 处 理 缺 失 数 据 方法 的 一 个 简 述 。27. 4 
节 首 先 从 基于 模型 的 方法 开始 ,然后 讨论 极 大 似 然 法 。27. 5 节 考 察 估 算 的 回归 框 
架 及 EM 形式 方法 。27. 6 一 27. 7 节 曾 述 利用 数据 增 广 的 贝 叶 斯 方法 与 MCMC 进 
行 估算 的 方法 。27. 8 节 给 出 一 个 说 明 性 例子 。27. 6 一 27. 8 节 提 出 运用 第 13 童 贝 
叶 斯 方法 的 一 个 精彩 应 用 。 


27.2 缺失 数据 假设 


估算 文献 广泛 使 用 的 某 些 基本 术语 与 正式 定义 都 要 归功 于 和 鲁 富 (Rubin， 
1976) 的 研究 工作 ,他 曾 引 人 两 种 重要 的 缺失 数据 机 制 , 一 种 是 随机 缺失 , 另 一 种 是 
完全 随机 缺失 ,这 两 种 机 制 成 为 有 用 的 基准 。 

鲁 宾 的 设置 背景 包括 Y,Y 是 由 完整 数据 集 构 成 的 NXp 阶 和 矩阵 , 它 可 能 不 是 
全 部 被 观测 到 的 。 用 Y。w 表 示 观 测 部 分 ,Yu 表示 不 可 观测 到 (缺失 ) 部 分 。 在 回归 
模型 背景 下 ,Y 既 可 以 指 回归 元 ,又 可 以 指 响应 ( 因 ) 变 量 。 因 此 ,该 分 析 涵 盖 了 缺 
失 数 据 的 一 般 情 况 。 设 R 表示 指示 变量 的 NXp 阶 和 矩阵 ,R 的 元 素 是 0 或 1, 这 要 
依据 Y 中 的 对 应 值 是 缺失 的 还 是 观测 的 。 

对 于 含有 单个 因 变 量 的 回归 来 说 ,Y 包括 响应 变量 y 与 (Cb 一 1) 个 回归 元 买 的 
数据 。 变 量 xx 的 第 i 个 观测 值 记 为 过 ,缺失 的 概率 可 能 是 下 述 情形 :4i) 与 其 实际 
值 独立 ;(ii) 依赖 于 其 实际 值 ;Gii) 依赖 于 zu ，j 关 i; (iv) 依赖 于 zx ，7 关 1 天 R。 

下 面 给 出 关于 缺失 结构 的 假设 。 


27.2.1 和 大 杭 角 和 失 


设 xi(i 一 1，…N) 表 示 所 研究 数据 集中 的 变量 观测 值 。 随 机 缺失 假设 Lmiss- 
ing at random〈MAR) assumption] 是 指 如 下 的 缺失 情况 ,z; 缺 失 并 不 依赖 于 z; 值 ， 
但 可 能 依赖 于 zj;(j 隆 四 值 。 正 式 地 讲 : 
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BO 


ti 是 MAR 的 二 > Pr| x; 出 现 缺失 jz TI (27. 1) 


在 控制 z 的 其 他 观测 值 之 后 ,x; 出 现 缺 失 的 概率 与 x,; 之 值 不 相关 。 
削 宾 (Rubin，1976) 给 出 的 更 为 正式 的 定义 可 表述 如 下 :MAR 假设 蕴含 着 指 
示 变 量 R 的 概率 模型 并 不 依赖 于 Yi., 即 


PrLR1Yosy Yes， 一 PrLRIYo 0 ] 


其 中 ,多 表示 缺失 机 制 的 基本 (向 量 ) 参数 。 

在 MAR 条 件 下 ,无 响应 包括 在 忽略 缺失 信息 机 制 的 基于 似 然 推 断 之 中 ,尽管 
所 得 到 的 估计 值 可 能 是 无 效 的 。 可 是 ,者 MAR 假设 失效 , 则 缺失 概率 依赖 于 不 可 
观测 的 缺失 值 。 由 于 缺失 数据 的 值 是 未 知 的 ,所 以 MAR 约 东 不 是 可 检验 的 。 因 
为 缺失 数据 值 是 未 知 的 。 由 于 MAR 是 一 个 强 假 设 , 所 以 基于 缺失 性 各 种 不 同 假 
设 的 敏感 性 分 析 是 值得 做 的 。 

一 个 单独 问题 是 ,缺失 数据 模式 是 否 是 纯 随 机 的 。 在 实际 应 用 中 ,我 们 希望 观 

测 值 缺 失 处 于 数据 聚集 内 部 ,在 第 24 章 的 意义 下 ,观测 值 可 能 是 相关 的 。 可 是 ,该 
问题 并 不 与 因 缺 失 性 及 数据 值 有 联系 而 产生 的 无 响应 偏 傈 有 关 。 


27.2.2 人 移 全 随机 钢 拓 


完全 随机 缺失 (Miissing completely at random, 记 为 MCAR) 是 MAR 的 一 种 特 
殊 情 况 。 它 意味 着 , Yu 是 所 有 潜在 可 观测 数据 值 的 一 个 简单 随机 样本 [上 谢 弗 
(Schafer，1997) |。 

再 次 假定 x; 是 正在 研究 的 数据 集中 变量 的 一 个 观测 值 。 于 是 ,x; 的 数据 被 称 
为 MCAR, 如 果 zx; 缺失 数据 的 概率 既 不 依赖 于 xx; 之 值 ,也 不 依赖 于 数据 中 其 他 变 
量 的 值 。 正 式 地 讲 : 


X; 是 MCAR 的 之 Prlzr 出 现 缺 失 |Xx;,X;，VY 7 了 居 赴 (27. 2) 


例如 ,如 果 :(a) 平均 地 讲 , 没 有 报告 收入 的 那些 人 比 报告 收入 的 人 要 年 轻 ;(b) 典 
型 小 的 (大 的 ) 值 出 现 缺 失 , 束 违背 7 了 MCAR。 

对 于 本 节 前 面 所 提 及 的 情况 (一 (v) ,情况 (i) 既 满足 MCAR 又 满足 MAR, 情 
况 (iii) 与 (iv) 均 满足 MAR ,而 情况 (Ci 则 不 满足 MAR。 

MCAR 更 含 ,观测 数据 是 所 有 样本 的 一 个 随机 子 样本 。 当 假设 有 效 , 因 而 忽 
略 不 完整 观测 值 即 观测 值 含有 缺失 值 时 ,就 不 会 产生 偏 价 。 

一 个 推论 是 ,MCAR 失效 蕴含 样本 有 选择 偏 倚 形式 。MAR 虽 是 一 个 较 纶 假 

设 ,但 仍 有 助 于 估算 ,这 是 因为 它 假定 缺失 数据 机 制 仅 依赖 于 观测 量 。 


27.2.3 可 包 脱 缺失 与 不 可 多 胸 负 拓 


缺失 数据 机 制 被 称 为 可 忽略 的 (Cignorable) , 如果: (a) 数据 集 是 MAR 的 ; 
(b) 缺失 数据 生成 过 程 的 参数 区 与 我 们 要 个 计 的 参数 不 相关 。 


如 /缺失 数据 与 估算 


Wr 


这 个 条 件 类 似 于 第 2 章 曾 讨论 的 弱 外 生性 条 件 , 意 味 着 模型 参数 9 与 缺失 机 
制 参数 录 截 然 不 同 。 因 而 ,如 果 缺 失 数 据 是 可 忽略 的 ,就 不 需要 将 缺失 数据 的 缺口 
建 模 成 建立 模型 演算 的 一 个 基础 性 部 分 。 在 可 忽略 缺失 条 件 〈b) 几乎 总 是 得 到 满 
丰 的 假设 下 ,MAR 与 “可 忽略 性 ”经 常 被 处 理 成 等 价 的 [阿利 森 (Allison，2002) ]。 

如 采 对 于 (yz) 来 说 ,MAR 假设 被 违背 了 ,就 产生 非 可 忽略 的 缺失 数据 机 制 ， 
但 是 知 仅 对 z 来 说 被 违背 时 , 则 没有 违背 非 可 忽略 的 缺失 数据 机 制 。 在 这 种 情况 
下 ,为 了 获得 参数 8 的 一 致 估计 ,必须 对 缺失 数据 生成 过 程 以 及 整个 模型 加 以 建 
模 。 为 了 避免 选择 偏 倚 的 可 能 性 ,必须 使 用 诸如 赫 克 曼 两 阶段 方法 的 估计 量 。 

估算 文献 关注 可 忽略 缺失 性 。 知 数据 集 是 MCAR, 则 撤 开 可 通过 估算 减少 的 
效率 损失 不 谈 , 缺 失 数 据 并 不 会 引起 什么 问题 。 相 反 , 如 果 数 据 集 仅仅 是 MAR , 那 
么 为 确保 一 致 性 与 提高 效率 或 许 必用 估算 方法 。 


27. 3 非 模型 处 理 缺 失 数据 


倘 知 没有 模型 可 以 利用 , 则 人 们 直接 分 析 可 用 数据 ,或 者 分 析 非 模型 估算 之 后 
的 数据 。 


27.3.1 只 利用 可 用 数据 


成 列 删除 或 完整 个 案 分 析 意 指 , 删 除数 据 中 有 人 缺失 值 的 一 个 或 多 个 变量 的 那 
种 观测 值 (个 案 )。 在 MCAR 假设 下 ,经 过 成 列 删除 之 后 ,所 保留 的 样本 仍 是 源 自 
最 初 总 体 的 一 个 随机 样本 ;因此 ,基于 该 样本 的 估计 是 一 致 的 。 不 过 ,其 标准 误差 
将 会 扩大 ,因为 所 用 信息 甚 少 。 若 回归 元 个 数 很 多 , 则 成 列 删除 的 总 效果 导致 总 观 
测 值 会 剧烈 减少 。 这 激发 人 们 脱离 那 种 对 拥有 高 比例 缺失 观测 值 的 变量 进行 分 
析 , 可 是 ,和 由 该 种 方法 所 产生 的 结果 却 湾 在 地 对 人 误导 。 

如 有 果 MCAR 得 不 到 满足 且 缺 失 数据 仅仅 是 MAR ,那么 估计 将 是 有 偏 的 。 因 
而 ,成 列 删 除 对 违背 MCAR 而 言 不 是 稳健 的 。 不 过 ,成 列 删 除 对 回归 分 析 中 各 个 
自 变 量 ( 回 归 元 ) 违 背 MAR 而 言 是 稳健 的 ,也 就 是 说 ,任何 回归 元 出 现 缺失 数据 的 
概率 并 不 依赖 于 因 变 量 之 值 。 简 略 地 讲 ,成 列 删除 是 可 接受 的 ,如 果 归 因 于 缺失 数 
据 的 不 完全 情况 构成 了 各 种 情况 的 比例 很 小 ,比如 说 5% 或 更 少 [ 谢 弗 (Schafer， 
1996)j。 重 要 的 是 ,成 列 删除 之 后 的 样本 是 所 研究 总 体 的 代表 。 

成 对 删除 (pairwise deletion) 或 可 用 案例 分 析 , 时 常 被 认为 是 比 成 列 删除 更 好 
的 一 种 方法 。 其 思想 是 估计 (x ;TX2) 的 联合 样本 短 时 ， 运用 观测 值 (zi; » TX2i ) 的 全 部 
可 能 对 ,并 且 估 计 边 缘 窍 时 运用 个 体 变 量 的 全 部 观测 值 。 因 而 ,在 线性 回归 中 ,在 
成 对 删除 下 我 们 运用 回归 元 的 所 有 可 能 对 估计 (X XI) 与 (XYy) ,而 在 成 列 删 除 下 ， 
要 在 删除 任何 拥有 缺失 观测 值 的 全 部 情况 后 才能 估计 (CX X) 与 (X y)。 很 明显 ,在 
成 对 删除 下 ,我 们 损失 较 少 信息 。 这 里 建议 要 运用 最 大 信息 量 去 估计 个 体 概 括 统 
计量 ,诸如 均值 与 协 方差 ,然后 使 用 这 些 概括 统计 量 去 计算 回归 估计 。 

成 对 删除 有 两 个 重要 局 限 性 :(1) 一般 地 讲 , 估 计 标 准 误 差 与 检验 统计 量 都 是 
有 偏 的 ;(2) 所 得 到 的 回归 元 协 方差 矩阵 (XX) 可 能 不 是 正定 的 。 
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27. 3. 2 不 用 模型 的 信 算 


统计 软件 经 常 执行 一 系列 专门 或 勉强 证 明 合 理 的 方法 。 

均值 估算 (mean imputation) 或 均值 替补 (mean substitution) 意 指 ,运用 可 利用 
值 的 平均 值 代替 缺失 观测 值 。 该 方法 是 均值 保留 ,但 将 对 数据 的 边缘 分 布 产 生 影 
啊 。 很 明显 ,边缘 分 布 中 心 概率 质量 表现 出 增 大 。 该 方法 也 影响 到 协 方差 以 及 与 
其 他 变量 的 相关 性 。 

简单 替补 12Csimple hot deck) 估 算 意 指 ,用 从 有 观测 值 的 变量 中 随机 抽取 到 
的 值 代替 缺失 值 ,这 有 点 像 自助 法 。 该 方法 维持 了 那个 变量 的 边缘 分 布 , 却 扭 曲 了 
变量 之 间 的 协 方差 与 相关 性 。 

在 回归 背景 下 ,这 两 个 著名 方法 虽然 具有 简单 性 ,但 它们 没有 一 个 引 人 注 目 。 


27. 4 观测 数据 似 然 函 数 


喘 失 数据 的 现代 方法 是 ,通过 从 基于 假定 观测 数据 模型 或 缺失 数据 机 制 中 抽 
取 的 单个 或 多 重 值 来 估算 缺失 观测 值 。 这 种 方法 的 贝 叶 斯 变形 是 从 后 验 分 布 中 采 
样 , 既 使 用 似 然 函数 又 使 用 参数 的 先 验 分 布 。 

第 一 个 重要 问题 涉及 估算 方法 中 缺失 数据 机 制 所 起 的 作用 ,特别 是 ,缺失 数据 
机 制 是 否 是 可 忽略 的 。 

设 0 表示 YY 一 (Yous,Yns) 数 据 生成 过 程 的 参数 ,并 设 多 表 示 缺 失 数据 机 制 的 参 
数 。 为 了 符号 简单 起 见 ,假定 (Yus, Yus) 均 是 连续 变量 。 于 是 ,(R, Yo ) 的 联合 分 
布 由 


Pr| R,Y,, ] 9， wf | 本 |PrER, Yo » Ymis ] 09， of | d Yi. (217. 3) 
= |PrLRIYassYm JPr[L Yaw, Yi | OJdY, 


= Pr[R| Ym, ]|PrEYo, Yo | 的 dy 

= PrLR| Yo ,2 |PrL Yo | 0) 
给 出 ,其 中 ,第 一 个 等 式 是 从 所 有 数据 与 R 的 联合 概率 中 通过 对 Yi 进行 积分 (或 
者 平均 ) ,进而 推导 出 (R, Yo ) 的 联合 概率 。 第 二 行将 联合 概率 因 式 分 解 为 以 Ya 
与 Yos 为 条 件 的 条 件 成 分 及 边缘 成 分 。 第 三 行 从 观测 数据 机 制 中 分 离 出 缺失 数据 
机 制 ;该 步 由 MAR 假设 得 出 。 最 后 一 行 意味 着 ,6 与 切 是 截然 不 同 的 参数 ,从 而 对 
0 进行 推断 能 忽略 缺失 数据 机 制 ,而 仅仅 依赖 于 Yo。 

观测 数据 似 然 是 与 第 四 行 的 最 后 因子 成 比例 : 
L[O|Y,, cc PrrY 109] (27. 4) 

该 观测 数据 似 然 只 涉及 观测 数据 Ye ,尽管 参数 9 出 现在 全 部 观测 值 (观测 到 数据 
与 缺失 数据 ) 的 数据 生成 过 程 中 。 正 如 第 13 章 一 样 , 比例 常 值 没有 出 现在 式 


【1 又 称 为 热 平 合法 。 一 一 泽 者 注 
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i 


(27. 4) 之 中 。 
在 MAR 假设 下 ,(0,w) 的 联合 后 验 概率 可 被 写成 Pr[R, Yo |0,p] 也 先 验 联 
合 分 布 x(0, 多 ) 的 如 下 乘积 形式 : 


Pr| 0,% | Yo R] 一 上 PrIR,Y， 10 ;1p |x (0, ) (27. 5) 
ocPr[ R| Yo ,2 |PrL Yo |0 xO, ?0 ) 
ocPr[R|Yos ,2 JPrL Yors |0 Jxs C0) sr, Cp) 


其 中 ,第 一 行 中 的 表示 与 (0,w ) 无 关 的 一 个 比例 性 常 值 。 第 二 行 用 到 了 式 
(27.3) 给 出 的 因 式 分 解 , 而 第 三 行 则 使 用 了 0 与 光 是 独立 先 验 的 假设 。 

因为 主要 关注 内 容 在 于 6, 所 以 从 联合 后 验 中 通过 对 钞 进行 积分 ,推导 6 的 边 
绿 后 验 。 从 而 得 出 观测 数据 后 验 (observed-data posterior). 


Pr[6|Yus,R] = |Pr[e ,区 Yu Rlay (27. 6) 


cc Pr Yo | 6]m(b)|Pr[R| Yopss WB Ty Ch) dy 
OC L[0| Yo |re (0) 


其 中 ,第 二 行将 8 与 落 分 离开 ,而 最 后 一 行将 积分 表达 式 合并 到 比例 性 常 值 之 中 。 
因此 ,最 后 一 行 没 有 包含 钞 , 从 而 与 缺失 数据 机 制 R 独立 。 


27.5 基于 回归 的 估算 


在 本 方 ,我 们 考察 基于 最 小 二 乘法 的 估算 。 其 重要 组 成 部 分 是 运用 EM 算法 ， 
前 面 曾 引进 EM 算法 ,并 在 10. 3. 7 节 讨 论 过 ， 

EM 算法 由 期 望 步骤 与 求 极 大 值 步 又 组 成 。EM 算法 的 结构 与 贝 叶 斯 MCMC 
以 及 数据 扩大 方法 紧密 地 联系 。 因 此 ,我 们 将 引入 一 个 例子 ,阐述 支撑 现代 多 重信 
算 方 法 的 动因 ,并 给 出 这 类 方法 的 重要 特性 , 而 不 是 提供 处 理 缺 失 数据 的 完整 操作 
方法 。 


27.5.1 及 变量 由 现 筷 欠 妆 据 的 线性 回 轨 例子 


在 实际 应 用 中 , 因 变 量 ( 内 生变 量 ) 与 /或 者 解释 变量 可 能 出 现 缺失 观测 值 。 我 
们 考察 一 个 回归 例子 ,其 中 因 变 量 有 缺失 观测 值 , 即 : 


yi 入 | Ul 

> = x etl (27.7) 
其 中 ,ELu|X] 二 0,ELuu |X]= 二 oIv。 新 出 现 的 困难 是 , 因 变 量 y 观测 值 的 一 部 分 出 
现 人 缺失 ,将 此 缺失 部 分 记 为 yw:。 我 们 假定 ,可 利用 的 完全 观测 值 是 来 自 总 体 的 一 

个 随机 样本 ,因而 假定 缺失 数据 虽 不 是 MCAR 的 , 却 是 MAR 的 。 
已 知 MAR 假设 , 且 Nj 宝 K,Ni 的 第 一 分 块 能 用 于 一 致 地 估计 出 K 维 参数 。 
在 高 斯 误差 条 件 下 , (8B ,o ) 的 极 大 似 然 估 计 是 B86 二 [XiXi] 'Xiy 与 二 (yi 一 
XiB) (yi 一 XP)/N1。 借助 于 标准 理论 知识 ,并 在 正 态 性 假设 下 ,得 到 | 数据 ~ 
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UM 


NILB, oe [XIX Ss /eB~ (Ni— KX x. 

首先 ,考察 生成 缺失 观测 值 的 一 种 朴素 单一 估算 方法 。 以 X: 为 条 件 ,yms 的 预 
测 值 记 为 yi; ,Ym 由 XB 给 出 ,其 中 , B 表示 仅 利用 前 面 Ni 个 观测 所 获得 的 先前 
估计 值 。 于 是 ，; 


Ey |X2 = Yn, = Xp (27. 8) 
V[ yw |=VLY| X= (IN TX [Xi X; ] 1!X;) 


其 中 ,s*Iw, 表示 Viw1] 的 估计 值 。 
就 上 述 简便 方法 而 言 , 人 们 可 生成 N; 个 yi 的 预测 值 ,然后 将 标准 回归 方法 
应 用 到 N= 二 Ni 十 NN; 观测 值 的 全 部 样本 上 。 
简便 方法 的 两 个 步骤 对 应 于 EM 算法 的 两 个 步 又。 预测 步骤 是 下 步骤 ,而 将 
最 小 二 乘 应 用 于 扩大 样本 的 第 二 步 则 是 M 步骤 。 
不 过 ,这 种 解 显得 不 精细 。 第 一 ,考虑 数据 扩大 步骤 。 由 于 生成 值 yi 准确 地 
位 于 最 小 二 乘 拟 合 平 面 上 ,为 了 得 到 一 个 新 的 估计 值 成 ,将 ($6,X) 加 入 样本 之 
中 并 不 会 改变 先前 估计 值 A. 
Bh 一 [XI Xi + XX, | [Xi y+ Xz Ys | 
一 [XIX + XX ] :LX XB Xi XB] 
=p 
第 二 ,因为 由 构 迄 知 , 添 加 的 N; 个 残 差 均 为 0, 通过 标准 公式 获得 来 自 扩大 样 
本 的 ww 估计 值 ,该 估计 值 显得 太 小 , 即 、 


5 一 (y 一 XGA) (y—XO)/N (27. 9) 
=(y—X8) CCy —XH /Ns 


正确 地 讲 , 其 中 ,s 应 被 Ni 而 不 是 NN 除 。 

最 后 ,正如 从 yw 的 抽样 方差 中 看 到 的 ,与 y 不 同 ,生成 预测 都 是 异 方差 的 ,从 
而 Ba 的 方差 不 能 利用 通常 最 小 二 乘 公 式 加 以 估计 。 观 测 值 ys 是 从 具有 不 同方 差 
的 分 布 中 抽取 的 。 这 种 简便 方法 没有 考虑 到 依附 于 yu 估计 的 不 确定 性 。 

为 了 确定 这 些 问题 ,就 需要 校正 。 首 先 ,jw 的 估计 应 考虑 到 B 的 不 确定 性 。 
通过 调整 zs 可 达到 此 目的 ,并 将 某 些 “噪声 ”加 入 生成 预测 之 中 ,使 得 缺失 数据 估 
计 值 更 紧密 地 酷似 从 y; 的 (估计 或 条 件 ) 分 布 所 抽取 的 值 。 标 准 化 步骤 用 到 了 下 
面 事 实 ;VLyw; | 的 估计 值 V 可 从 式 (27. 8) 得 出 。 因 此 ,变换 变量 V-12 ymis 的 成 分 拥 
有 单位 方差 。 为 了 类 似 y 的 分 布 , 我 们 运用 从 [0,s:] 分 布 实施 蒙特 卡 罗 抽 样 ， 
并 用 V-22yms 乘 以 它 。 

修正 算法 如 下 : 

1. 利用 前 面 Ni 个 完整 观测 值 估计 值 6。 

2. 生成 Yis — X2/% o 

3. 生成 如 .一 (V-12yu)G@Oun 的 调整 值 , 其 中 ,u。 表示 由 人 [0,s] 分 布 得 出 的 
蒙特 卡 罗 抽 样 值 ,而 表示 元 素 对 元 素 逐 一 乘法 。 
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4. 运用 扩大 样本 得 到 局 的 修正 估计 值 。 

5. 重复 步骤 1 一 4, 步 骤 1 将 用 到 局 的 修正 估计 。 

修正 算法 也 称 为 EM 类 型 算法 ,该 方法 不 断 实施 ,一 直到 它 在 下 述 情 况 收敛 为 
止 :系数 变化 或 回归 残 差 平方 和 变化 可 任意 小 。 

为 了 与 刚才 讨论 的 内 容 连 接 上 ,我 们 对 该 算法 给 出 一 种 不 同 解释 。 第 3 步 是 
从 给 定 8 时 y 的 条 件 分 布 中 抽取 ,而 第 4 步 是 从 给 定 ?2 、X 时 从 BB 的 条 件 分 布 中 抽 
取 的 。 这 种 方法 可 通过 增加 如 下 一 步 而 得 到 精炼 , 即 增 加 一 步 是 从 8 分 布 中 抽 
样 。 我 们 没有 做 完 该 方法 的 所 有 步骤 ,因为 在 后 面 对 估 算 的 讨论 中 会 变更 为 清楚 。 

第 16 章 曾 阐述 过 因 变 量 出 现 缺 失 数据 时 的 另 一 些 模型 。 这 些 模型 放松 了 
MAR 假设 ,并 设 定 非 忽略 缺失 性 。 于 是 ,用 上 述 EM 算法 ,就 得 到 6 的 非 一 致 估 
计 。 删 失 Tobit 模型 设 定 : 对 于 满足 x6G 十 x 委 0 观测 值 来 说 ,数据 出 现 缺 失 , 而 且 
一 个 一 致 估计 量 是 Tobit 极 大 似 然 估计 量 ( 人 参见 16. 3 节 )。 雨 官 (Amemiya, 1985， 
第 376 一 378 页 ) 曾 经 详 述 过 Tobit 模型 的 EM 算法 。 


27.6 数据 扩大 与 MCMC 


号 失 数 据 贝 叶 斯 方法 的 一 般 性 结构 运用 了 下 述 形 式 的 迭代 算法 , 即 用 估算 步 
又 与 预测 步骤 。 
估算 步骤 (imputation step, 工 步 ) 是 从 Yi 的 条 件 预 测 分 布 抽样 。 已 知 第 r 回 
的 估计 值 : 
YE ~ Pr[L Ys | Yors ,0 ] (27. 10) 
这 个 表达 式 给 定 当 前 估计 值 0” 与 观测 数据 Yo 时 ,从 Ya 的 预测 条 件 分 布 随机 抽 
样 得 到 Yi “”。 注 意 , 一 般 地 讲 , Yi 是 一 个 矩阵 , 故 这 样 符号 (原则 上 ) 涉 及 到 一 系 
列 抽样 。 
预测 步骤 (prediction step,P 步 ) 是 通过 从 完整 数据 后 验 
8 一) 一 PrLO YY | (27. 11) 


抽样 而 完成 的 。 也 就 是 说 ,Ye 借助 于 从 Yes 预测 分 布 抽样 得 到 估算 值 Yi 得 到 
扩大 ,然后 ,从 6 的 后 验 分 布 得 到 一 个 抽样 。 对 式 (27. 10) 与 式 (27. 11) 步 骤 不 断 重 
复 进 行 。 | 

从 两 个 分 布 中 得 到 的 抽样 序列 生成 了 马尔 可 夫 链 。 这 样 过 程 非常 类 似 EM 算 
法 ,本 质 上 是 13. 5. 2 节 的 吉 布 斯 抽样 器 ,可 是 在 缺失 数据 文献 中 , 它 称 为 数据 扩大 
(data augmentation) 。 在 适当 条 件 下 ,并 借助 于 13. 5. 1 节 所 引述 的 定理 ,对 于 充分 
大 的 r+ 值 来 说 ,抽样 序列 将 收敛 到 平稳 分 布 ,r 为 此 链 长 度 。 当 该 链 终止 时 ,我 们 就 
有 Yas 的 一 个 估算 。 于 是 ,将 9" 看 成 是 从 PrL91Yowsj] 中 抽样 得 出 的 一 个 近似 ,而 
Yt? 是 从 Pr[ Yss|Yowsj 中 抽样 得 到 的 一 个 近似 。 如 同 任何 MCMC 应 用 一 样 ,该 
链 为 确保 后 继 估算 没有 统计 相依 性 而 必须 执行 得 充分 长 。 这 些 问题 已 在 第 13 章 
讨论 过 。 

在 收敛 之 后 ,我 们 可 以 完成 如 下 两 个 联合 目标 :一 个 是 基于 数据 的 设 定 模 型 估 
算 缺 失 值 , 另 一 个 是 利用 观测 值 与 估算 估计 模型 。 一 旦 收敛 ,我 们 就 拥有 必须 计算 
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0 的 后 验 矩 以 及 6 与 Y 的 任何 关注 函数 的 数据 ,其 所 用 思想 已 在 第 13 章 讨论 了 。 
作为 这 个 方法 的 一 个 解释 ,我 们 重新 考察 前 一 节 缺 失 数据 回归 的 例子 。 
MCMC 算法 的 步骤 如 下 : 
l. 利用 观测 数据 ,计算 B= [LX Xi |] !'Xiy, , 以 及 iu 一 (yi —X8) o 
， 当 用 从 Xn，k 分 布 中 得 到 的 抽样 除 ina 时 ,就 生成 了 史 。 
. 从 Bl 一 MLB,o[XiX;] 中 得 到 抽样 。 
， 从 Yn 一 NV[XzB,o?] 51 中 得 到 抽样 。 
. 用 y 代 替 y ,用 X 代 替 Xi ,在 进行 适当 调整 后 ,重复 步 又 1 一 4。 
执行 步骤 2 的 理由 是 ,在 (9,o ) 的 非 信 息 先 验 条 件 下 ,只 有 使 用 观测 数据 时 ， 
iayo2 的 条 件 后 验 分 布 服从 Xw _x 。 在 数据 扩大 之 后 ,这 就 变 成 XN_k 。 执 行 步骤 3 
的 理由 是 ,在 非 信息 先 验 条 件 下 ,条 件 后 验 分 布 服从 N[ Bc?[X’X1] 1j。 一 旦 数 
据 扩 大 后 ,这 变 成 M[ B,c:[X'X] !]。 步 又 4 则 是 使 用 条 件 预测 密度 [XB,o?] 
的 估算 步 又。 倘若 我 们 使 用 信息 先 验 ,例如 (6,o) 的 正 态 伽 玛 先 验 , 则 这 些 步 又 就 
要 进行 适当 修正 。 这 种 情况 的 条 件 后 验 分 布 已 由 13. 3 节 给 


27.7 多重 估算 


前 面 一 节 分 析 了 如 何 实施 完 整 的 MCMC 生成 单一 估算 。 不 过 ,单一 估算 并 不 
适合 处 理 缺 失 数 据 的 不 确定 性 。 这 就 是 要 使 用 多 重 估 算 方 法 的 根本 原因 ， 
Ynmis |Yws ,9 的 条 件 预 测 分 布 可 通过 对 6 的 观测 数据 后 验 加 以 平均 而 获得 : 


Pr| Ym ] Yo 一 | PrLY。。 YY ops ,0 |Pr [0| Yops jd0 


给 定 模 型 参数 的 不 确定 性 ,从 贝 叶 斯 观点 来 看 ,适当 的 多 重 估 算 反 映 出 Yn 的 不 确 
定性 。 

在 多 重 估 算 后 ,缺失 数据 Yi 就 用 模拟 /估算 值 Ya ,Yis » Yui 9 » Ye 代替 。 
那么 ,每 一 个 完整 数据 集 都 要 得 到 分 析 , 就 好 像 数 据 集 是 完全 的 。 经 过 m 次 分 析 
得 出 结果 ,将 显示 由 缺失 数据 引起 的 不 确定 性 方面 的 变化 。 就 m 个 不 同 数 据 集 而 
言 , 会 产生 下 述 问 题 ; 人 们 应 该 如 何 确 定 一 个 合适 的 值 ,同时 应 该 如 何 将 参数 估 
计 的 mm 个 集合 与 协 方差 矩阵 结合 起 来 。 我 们 对 这 两 个 问题 都 要 给 予 讨论 ,运用 来 
自 文献 的 一 些 结 果 , 却 没有 提供 所 用 结果 的 详细 推导 ，。 

在 考虑 如 何 对 基于 多 重 佑 算数 据 的 一 些 结果 加 以 结合 方面 ,一 个 重要 结果 可 
用 任意 统计 量 AQ 来 进行 表述 , 即 : 


PrLQiY。 | = |Prra Yis » Yops Pr Yu。 | Yo jdYais (27. 12) 


该 式 描 述 了 Q 的 实际 后 验 分 布 , 式 (27. 12) 通 过 对 Q 的 完整 数据 后 验 分 布 进行 平 
均 而 得 到 。 这 意味 着 在 缺失 观测 值 的 多 重 估算 结果 上 取 平 均值 。 


nn 


E13 原著 中 此 处 为 ([XzB, o2], 但 应 该 为 ([XzB8,o2 且 。 一 一 译 者 注 
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式 (27. 12) 缠 含 ,Q 的 最 终 佑 计量 通过 期 望 迭 代 律 给 出 : 
FELQ| Yo |= ELELQ| Yo Ya || Yo. (27. 13) 


Q 的 后 验 均值 是 利用 缺失 数据 的 重复 估算 后 的 完整 数据 而 得 到 Q, 的 平均 值 。 
Q 的 最 终 方差 由 公式 


VLQ Yoj=ELVLQ YY ops ,Ymis | | Yops | VLELQI| Y ops » Ymis | Y op | (27. 1]4) 


给 出 ,这 里 用 到 了 A. 8 节 给 出 的 方差 分 解 公式 。 

鲁 宾 (Rubin，1996) 还 给 出 了 整合 矩 信息 的 下 述 规则 ,这 可 用 纯 量 参数 加 以 表 
述 。 对 于 任意 纯 量 参数 ,假定 Q, 是 第 > 回 估算 的 点 估计 ,U, 是 方差 估计 。 于 是 ， 
可 分 别 定义 出 如 下 点 估计 与 方差 估计 的 平均 值 . 


Q 一 7 > (27. 15) 
U=m’! SU, (27. 16) 

而 将 估算 之 间 的 方差 定义 成 ， 
B= (mC— 1)7 S\ (Q, — Q)’ (27. 17) 

并 且 总 方差 定义 成 ， | 
T=0U+ (1 二 m1)B (27. 18) 


结果 (27. 15) 与 式 (27. 16) 可 由 式 (27. 13) 得 出 ;而 式 (27. 18) 则 由 式 (27. 14) 得 
到 。 谢 夫 (Schafer，1997) 给 出 将 pp 值 与 似 然 比 统计 量 结 合 起 来 的 结果 ,并 提供 为 
外 一 些 参 考 文献 。 

利用 最 终 估 计 , 可 做 出 关于 个 体系 数 或 系数 子 集 的 估算 后 推断 ,这 是 因为 标准 
的 中 心 极限 定理 与 有 关 的 大 样本 结论 均 能 推广 到 涵盖 此 情况 。 

下 面 是 关于 m 重 估算 的 相对 效率 的 一 个 测量 : 

reff 二 (十 (A/m)) (27. 19) 

其 中 ,4 是 缺失 观测 值 的 比例 小 数 。 测 量 是 相对 于 没有 缺失 数据 而 给 出 的 。 表 
27. 1 的 算术 计算 结果 表明 , 仪 就 三 个 售 算 而 言 ,对 于 缺失 数据 有 10% 时 ,其 效率 高 
达 97% ,而 对 于 缺失 数据 有 50% 时 ,其 效率 为 86%。 就 10 次 或 更 多 次 估算 而 言 ， 
对 于 缺失 数据 有 50% 时 ,其 相对 效率 大 于 95%。 因 而 ,正如 谢 弗 (Schafer，1997) 
强调 的 ,估算 次 数 不 必 太 大 。 


表 27.1 多 重 估 算 的 相对 效率 


观测 值 缺 失 (X) 
估算 次 数 (7m) 10% 30% 50% 
3 0. 967 0. 909 0. 857 
10 0. 990 0. 970 0. 952 
20 0. 995 0. 985 0. 975 


微观 经 济 计量 学 


27.8 缺失 数据 的 估算 例子 


本 节 对 缺失 数据 倍 算 的 两 个 应 用 给 出 解释 :一 个 是 成 列 删除 与 均值 估算 的 无 
模型 方法 (参见 27. 2 节 ), 男 一 个 是 利用 MCMC 算法 数据 增 广 的 基于 模型 方法 ( 参 
见 27.6 节 )。 仅 有 回归 元 出 现 缺 失 , 而 缺失 机 制 是 MAR 的 。 

第 一 个 应 用 涉及 简单 多 重 估算 ,第 二 个 应 用 涉及 logit 回归 。 为 了 清晰 简单 起 
见 ,我 们 使 用 已 知 数据 生成 过 程 来 人 为 地 生成 数据 。 


27. 8.1 右 归 元 出 现 激 据 锯 和 失 的 线性 回 蚊 
对 于 线性 回归 例子 ,数据 生成 过 程 是 : 


yi=BtBzrtpBrztu, 二 12 (27. 20) 
其 中 ,wu | zi ,zz 一 和 NL0,g], 《zii ,Xz;) 服 从 二 元 正 术 分 布 ,满足 ， 
; U ] 
了 |~w|| | ?| (27. 21) 
Xi 0 p 1 


所 以 zz 上 一 ALoz 1 一 六 ]。 而 且 , 我 们 设 B' =|L1 1 1], N=1 000,z 与 zx; 
出 现 随机 缺失 数据 的 比例 为 10% 或 25%。 对 于 任意 i 来 说 ,或 x 出 现 缺 失 或 xs 
出 现 缺 失 , 或 两 者 都 出 现 缺 失 。 我 们 还 用 到 o 的 两 个 不 同 值 , 即 0. 36 与 0. 64。 

就 马尔 可 夫 链 而 言 ,我 们 对 “练习 阶段 ?运用 500 次 迭代 。 利 用 SAS MI Proc 
算法 完成 该 马尔 可 夫 链 的 计算 ,执行 算法 时 用 到 了 非 信息 先 验 。 对 于 只 是 示范 性 
目的 来 说 ,估算 次 数 固定 在 10 次 ,但 该 链 在 “练习 阶段 ?之 后 的 长 度 变动 从 10 到 
10 000。MI Proc 使 用 式 (27. 15) 一 (27. 18) 对 来 自 多 重 估算 的 结果 加 以 联合 。 

表 27. 2 与 表 27. 3 阐述 了 o 很 大 时 ,缺失 数据 出 现 大 比例 与 小 比例 不 同情 况 
的 结果 。 这 些 不 同 结果 之 间 并 没有 巨大 差异 。 因 为 应 用 到 MAR 假设 ,所 以 来 自 
成 列 删 除 的 点 估计 值 与 来 自 完 整 样本 的 点 估计 值 接 近 , 只 是 如 人 们 所 料 , 在 成 列 删 
除 条 件 下 ,标准 误差 较 大 。 在 均值 估算 条 件 下 ,Bs 的 点 估计 相对 而 言 更 为 发 散 , 可 
是 观测 变异 仍 位 于 抽样 误差 界 之 内 。 很 明显 ,在 这 两 种 情况 下 ,马尔 可 夫 链 更 迅速 
地 达到 平稳 ,在 迭代 10 次 与 迭代 10 000 次 之 间 , 其 结果 差异 很 小 。 这 可 能 归 因 于 
拥有 练习 阶段 次 数 500 的 集合 , 比 相 对 简单 情况 所 需 的 更 大 一 些 ， 


表 27.2 缺失 数据 估算 :出 现 10% 比 例 缺 失 数据 与 高 相关 性 的 线性 估计 ,运用 MCMC 算法 


马尔 可 夫 链 的 长 度 
无 数据 缺失 ”成 列 删除 ”均值 舍 算 10 1 000 5 000 10 000 
Bo 0. 919 0. 913 0. 899 0. 910 0. 911 0. 909 0. 903 
(0. 104) (0. 113) (0.105) (0.102) (0.101) (0.103) (0,101) 
Bi 1. 097 1. 067 1. 053 1. 196 1. 205 1. 199 1. 199 
(0. 138) (0. 167) (0. 150) (0.148) (0.155) (0.144) (0.147) 
有 1. 000 1. 072 1. 112 1. 042 1.051 1. 041 1. 055 
(0. 132) (0. 145) (0. 135) (0.140) (0,146) (0.143) (0. 146) 
R? 0. 240 0. 254 0. 226 


有 
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表 27.3 缺失 数据 估算 :对 出 现 25% 的 缺失 数据 与 高 相关 性 


的 线性 回归 估计 ,运用 MCMC 算法 
马尔 可 夫 链 的 长 度 
无 数据 缺失 ”成 列 删除 ”均值 估算 10 1 000 5 000 10 000 
Bo 0. 919 0. 863 0. 984 0. 899 0. 898 0. 925 0. 900 
(0. 104) (0. 167) (0. 108)》 (0.108) (0.105) (0.111》 (0.110) 
Bi 1. 097 1. 048 1. 062 1. 028 1. 047 1. 082 0. 987 
(0. 138) (0. 167) (0. 150) (0.152) (0,166) (0.161) (0.,155) 
Bb: 1. 000 1. 129 1. 156 1. 071 1. 085 1.024 1. 124 
(0. 132) (0. 161) (0.148) (0.152) (0.144) (0.172) (0.152) 
Rs 0. 240 0. 268 0. 203 


表 27.4 表明 ,模拟 练习 重 现 了 关于 小 p 值 且 缺失 数据 为 25% 的 “最 坏 情 况 ”。 
来 和 目 完 整 样本 的 点 估计 值 与 来 自 成 列 删 除 及 均值 估计 情况 的 那些 点 估计 之 间 的 差 
异 , 从 总 体 上 看 相对 大 于 MCMSC 情况 。 不 过 ,甚至 在 此 情况 下 ,由 完整 样本 得 出 的 
估计 值 之 间 ,实际 上 并 不 存在 引 人 注 目的 差别 。 我 们 再 次 发 现 , 执 行 长 马尔 可 夫 链 
的 好 处 没有 出 现在 该 例子 中 。 


表 27.4 缺失 数据 估算 :对 出 现 25 思 的 缺失 数据 与 低 相关 性 


的 线性 回归 ,运用 MCMC 算法 
马尔 可 夫 链 的 长 度 
无 数据 缺失 ”成 列 删除 ”均值 估算 10 1 000 5 000 10 000 
Bo 1. 121 1. 162 1. 142 1. 149 1. 155 1. 154 1. 141 
(0. 099) (0. 130) (0. 103) (0.104) (0.103) (0.104) (0.101) 
Bi 1. 099 0. 930 1. 052 1. 026 1. 020 1. 004 1. 044 
(0. 107) (0. 134) (0. 121) (0.127) (0.128) (0.124) (0. 124) 
Bs 1. 102 1. 122 1. 215 1. 130 1. 157 1. 137 1. 151 
(0. 107) (0. 134) (0.124) (0.128) (0.129) (0.129) ‘0.119) 
R: 0. 243 0. 235 0. 186 


27.8.2 回归 元 出 现 缺 失 数 据 的 logit 后 好 
我 们 再 次 考察 ,利用 模拟 数据 的 回归 元 出 现 缺 失 数 据 的 非 线 性 模型 例子 。 在 
该 模拟 例子 中 ,保持 以 前 给 定 的 数据 生成 过 程 ,只 是 将 因 变 量变 成 一 种 离散 的 二 值 
变量 。 首 先 , 对 于 线性 回归 例子 ,重新 解释 给 定 的 模拟 设计 ,因而 y 二 y” 潜 变 量 ，。 
设 数据 生成 过 程 是 : 
Yr =—=B Prt brst ui, 2 一 ]， 2 人 (27. 22) 
于 是 ,二 值 变量 y; 依据 下 述 规则 生成 : 
一 | 人 (27. 23) 
1o， 当 y; <:0 
尽管 数据 生成 过 程 是 关于 probit 模型 的 ,但 我 们 将 对 yi; 二 0 的 概率 使 用 logit 模型 
进行 建 模 。 如 同 14. 4. 1 节 所 讨论 的 ,logit 模型 识别 参数 回 量 8/o, 其 中 ,方差 二 
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T/3。 就 8 的 所 有 元 素 都 被 设置 为 1 而 言 ,logit 模型 将 给 出 近似 一 0. 551 的 真实 
参数 值 的 估计 值 。 如 同 前 面 一 样 ,用 不 提供 信息 的 先 验 建立 MCMC 佑 计 。 

表 27. 5 涵盖 被 人 赞同 的 情况 :出 现 10% 缺 失 数 据 , 并 且 x 与 zz 之 间 有 高 度 
相关 性 ,而 表 27. 6 涵盖 不 被 人 赞同 的 情况 :出现 25% 缺 失 数据 ,并 且 zx 与 zz 之 间 
有 低 相 关 性 。 


表 27.5 缺失 数据 估算 :对 出 现 10% 的 缺失 数据 与 高 相关 性 
的 逻辑 斯 蒂 回 归 估 计 , 运 用 MCMC 算法 


马尔 可 夫 链 的 长 度 
无 数据 缺失 ”成 列 删除 ”均值 估算 10 1 000 5 000 10 000 
Bo 一 0.447 ”一 0.498 一 0.439 0.527 一 0.534 一 0.531  —0.539 
(0. 070) (0. 078) (0.070) (0.073) (0.073) (0.072) (0.073) 
8 一 0. 597 一 0. 658 一 0.602 ”一 0.620 ”一 0.673 ”一 0.681 ”一 0.675 
(0. 096 ) (0. 108) (0.098) (0. 106) (0.102) (0.101) 《0. 103) 
B: 一 0. 444 一 0. 474 一 0.523 一 0.597 一 0.540 ”一 0.536 一 0.553 


《0. 092 ) (0. 103) (0. 094) (0. 107) 《0. 103) 《0. 099) 《0. 101) 


表 27.6 ”缺失 数据 估算 :对 出 现 25% 的 缺失 数据 与 低 相关 性 


的 逻辑 斯 蒂 回 归 估 计 , 运 用 MCMC 算法 
马尔 可 夫 链 的 长 度 
无 数据 缺失 ”成 列 删除 《均值 估算 10 1 000 5 000 10 000 

Bo —0.447 一 0.658  —0.582  —0.605 “一 0.609 一 0.609  —0.599 

(0. 070) (0. 097) (0.070) (0.074) (0.074) (0.073) (0.076) 
Bi 一 0. 597 一 0. 434 一 0.470 “一 0.447 一 0.470 一 0.471 ”一 0.48] 

(0. 096) (0. 100) (0.085) (0.090) (0.094) (0.094) (0.082) 
有 一 0. 444 一 0. 593 一 0.648 ”一 0.634 ”一 0.615 ”一 0.576  —0.596 


《0. 092) (0. 108 ) 《0. 089) (0. 084) 《0. 086 ) 《0. 086) (0. 094) 


在 第 一 种 情况 下 ,其 至 就 没有 缺失 数据 而 言 ,Bs 估计 值 偏 离 其 期 望 值 相当 远 。 
当 马 尔 可 夫 链 的 长 度 从 10 增 大 到 1 000 时 ,点 估计 值 稍微 有 变化 。 不 过 ,进一步 地 
当 实 施 模拟 时 ,点 估计 仅 有 一 些微 小 的 变化 ,我 们 将 此 结 灯 解释 成 马尔 可 夫 链 收 全 
到 其 平稳 分 布 的 指示 。 

对 于 第 二 种 例子 , 它 涉 及 不 被 赞同 的 情况 ,其 结果 已 由 表 27. 6 所 示 。 主 要 甘 
别 在 于 ,期 望 点 估计 与 估计 值 之 间 的 差异 有 点 大 于 以 前 的 情况 。 可 是 ,更 锅 沁 地 
讲 ,逻辑 斯 蒂 回 归 的 多 重 估算 方法 的 效果 类 似 于 线性 回归 的 将 末 。 


27.9 应 用 研究 


本 章 针 对 实际 应 用 部 分 的 分 析 表 明 , 多重 估算 可 能 在 理论 上 比 信 算 数据 更 具 
优势 。 另 外 ,基于 模型 的 方法 比 那 种 机 械 方法 比如 均值 估算 或 简单 奉 补 更 号 少 特 
设 性 。 不 过 ,在 许多 现实 应 用 中 ,与 上 一 节 讨 论 的 例子 简单 性 相 比 ,设计 一 种 MC- 
MC 类 型 估算 方法 则 可 能 是 一 项 重要 挑战 。 


/缺失 数据 与 估算 


人 


在 终端 生成 数据 的 多 重 估算 与 终端 产 出 用 于 推断 目标 的 估计 系数 之 间 , 可 能 
要 男 出 一 条 界线 。 尽 管 这 两 种 方法 都 将 模型 建立 在 第 二 种 情形 基础 上 ,但 这 样 做 
会 涉及 更 为 复杂 的 经 济 计量 模型 。 布 朗 斯 通 和 瓦 莱 塔 (Brownstone and Valetta， 
1996) ,斯 坦 博 林 纳 (Stinebrinkner，1999) , 肯 尼 克 尔 (Kennickell，1998) ,以 及 戴 
维 、 沙 纳 汉 和 谢 弗 (Davey，Shanahan， and Schafer，2001) 都 给 出 了 例子 。 

其 至 最 初 目 标 是 估算 ,缺乏 广泛 建 模 的 问题 可 能 不 那么 简单 。 例 如 , 肯 尼 克 尔 
在 1995 年 的 消费 者 财务 调查 研究 中 |[ 肯 尼克 尔 (Kennickell, 1998, 第 5 页 )] 指 出 : 


当 调 查 包 括 相 当 多 的 变量 时 ,就 会 出 现 大 量 的 缺失 或 部 分 缺失 (范围 ) 信 
息 , 缺 失信 息 的 模式 是 高 度 异 质 性 的 ,一 些 变 量 的 分 布 出 现 高 度 偏 斜 , 并 且 数 
据 具 有 复杂 结构 ,那么 在 出 现 缺 失 的 条 件 下 ,对 调查 进行 分 析 将 是 一 项 非常 艰 
难 的 任务 。 此 外 ,利用 公开 数据 集合 形式 的 任何 人 都 会 缺乏 数据 基准 体系 ,而 
这 被 证 明 是 认识 缺失 数据 分 布 的 一 项 重要 因素 。 因 此 ,即使 基于 纯 效 率 的 考 
量 , 对 缺失 数据 进行 设 定 的 确 是 一 件 好 事 。 


尽管 问题 具有 复杂 性 ,但 肯 尼 克 尔 使 用 了 类 似 于 本 章 所 讨论 的 那些 估算 方法 。 

斯 坦 博 林 织 (CStinebrinkner，1999) 同 样 面 对 下 面 缺 失 数 据 情 形 :成 列 删除 “使 
得 经 济 计量 学 家 用 极 少 的 数据 去 估计 关注 模型 ”, 为 此 ,他 探索 一 种 两 阶段 基于 似 
然 模 拟 的 方法 ,估计 缺失 数据 的 联合 分 布 , 并 对 首 个 教学 时 期 的 持续 期 限 模型 加 以 
估计 。 

对 于 相对 简单 情况 ,可 以 运用 像 SAS 软件 的 Proc 程序 包 。 而 S-Plus 与 
SOLAS 也 提供 了 软件 支持 。 霍 顿 和 利 普 希 茨 (Horton and Lipsitz，2001) 对 计算 
机 软件 程序 包 给 出 一 个 有 益 的 指南 及 综述 。 对 于 更 多 其 他 的 信息 ,参见 有 关 的 
web 网 站 。 

本 章 大 多 数 分 析 均 建立 在 假定 具有 一 个 可 忽略 缺失 数据 机 制 的 基础 上 。 从 经 
济 计 量 观点 来 看 ,这 是 一 个 重要 的 简化 。 例 如 ,参见 利 拉 德 、. 史 密斯 和 韦 尔 奇 
(Lilard，Smith，and. Welch，1986) ,他 们 曾经 评论 估算 缺失 的 人 口 普 查 简 单 替补 
方法 。 倍 知 缺失 数据 机 制 是 不 可 忽略 的 ,人 们 应 该 怎样 继续 做 呢 ? 在 27. 4 节 的 符 
写 下 ,不 可 忽略 缺失 数据 机 制 芒 含 ,9 与 纱 不 是 独立 的 。 那 么 ,人 们 必须 用 明确 方 
式 设 定 缺失 数据 机 制 , 如同 选择 模型 与 损耗 偏 倚 模 型 情况 那样 (参见 第 16 章 与 
23. 5.2 季 ) 。 谢 弗 (Schafter，1997 ,第 28 页 ) 给 出 了 有 关 的 参考 文献 。 


27. 10 “文献 注释 


早期 重要 的 参考 文献 包括 利 特 尔 和 和 鲁 宾 (Little and Rubin，1987)、 鲁 宾 
(了 Rubin，1987)。 阿 利和 (CAlison，2002) 给 出 了 一 个 相对 非 技 术 性 又 通俗 易 懂 的 
缺失 数据 问题 的 介绍 ,以 及 参考 文献 。 鲁 宾 (Rubin，1996) 则 从 历史 观点 出 发 , 提 
供 了 一 个 综述 。 谢 弗 (Schafer，1997) 给 出 一 个 更 完整 的 分 析 , 涵 盖 分 类 数据 .混合 
离散 连续 数据 以 及 来 自 复 杂 调 查 的 数据 。 

27.2 备 C(Meng，2000) 针 对 缺失 数据 机 制 提 出 一 种 观点 。 
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27.5 利 特 尔 (Little，1988，1992) 对 线性 回归 含有 缺失 回归 元 的 文献 给 出 一 
个 很 好 综述 ,其 中 既 涵 盖 非 基于 模型 方法 ,又 涵盖 基于 模型 方法 。 


习题 


27-1 考察 任何 线性 或 非 线 性 回归 模型 ,其 中 , 因 变 量 为 ,内 生变 量 为 xx, 还 
有 iid 误差 s。 证 明 , 如 果 x 出 现 缺 失 数据 的 概率 与 y 无 关 , 那 么 基于 成 列 删除 ,该 
回归 将 给 出 条 件 均 值 函 数 的 一 致 估计 。[L 提 示 :证 明 给 定 x 时 y 的 条 件 分 布 没 有 受 
到 缺失 观测 值 的 影响 。| 

27 -2 [改编 自古 里 耶 克 斯 和 蒙 福特 (Gouriéroux and Monfort ,1981) . |] 考究 
回归 模型 y 二 Bx 十 ZB: 十 u, 其 中 ,y 表示 一 个 NX1 维 向 量 ,Z 是 一 个 NXK 阶 矩 
阵 ,x 是 一 个 NX1 维 纯 回 归 元 向 量 ,x 的 某 些 元 素 出 现 缺 失 。 假 定 观测 值 以 随机 
方式 出 现 缺 失 , 且 ELdlx,Z] 王 0, 同 时 ELuu |x,Z] 王 c2I 。 不 论 是 y 还 是 己 均 是 完 
全 观测 的 。 提 出 下 述 方法 用 于 处 理 缺 失 数 据 。 假 定 x 与 ZZ 有 关 的 线性 回归 模型 是 
x 一 ZY 十 e, 其 中 ,Ele|Z1 二 0, 而 ElLee |Z1]==e:IW。 于 是 , 设 了 一 [ZZ] 1Zx., 这 里 
的 下 标 “c” 意 指 “ 完 整数 据 ”。 估 算 值 如 一 ZLZ.Z :Zex. ,其 中 ,x 意 指 缺失 观测 
值 ,Zs 则 是 ZZ 的 相应 值 。 从 而 ,在 用 估算 值 代替 x 的 缺 大 值 之 后 ， 利用 完整 N 个 
观测 值 集合 ,重新 估计 最 初回 归 。 

(a) 解释 为 什么 基于 完整 观测 值 与 估算 观测 值 的 OLS 回归 估计 量 都 可 能 在 有 
限 样 本 时 是 有 偏 的 ? 

(b) 需要 什么 样 的 额外 条 件 可 以 证 明 , 基 于 完整 观测 值 加 上 估算 值 的 OLS 佑 
计量 是 一 致 的 ? 

(c) OLS 估计 量 是 有 效 的 吗 ? 

27 -3 考察 下 述 观 点 :在 数据 估算 之 后 ,对 模型 进行 估计 ,倘若 对 估算 步骤 不 
做 调整 , 则 估计 准确 性 可 能 被 硅 大 。 换 句 话 说 ,估算 数据 被 看 作 生 成 变量 ,从 而 受 
限于 6. 6 市 曾 讨论 的 序 贯 两 步 估计 量 问 题 。 解 释 与 缺失 数据 估算 有 关 的 调整 是 否 
在 渐 近 形式 上 是 必需 的 。 





A.1 3 各 


在 附录 中 ,我 们 考察 当 N->ce 时 ,随机 变量 序列 (sequence of random variables) 
bn 的 特性 。 

在 一 些 应 用 中 ,指标 N 表示 样本 量 , 而 序列 ov 表示 估计 量 , 比如 B86 或 0, 或 者 
是 估计 量 的 一 个 成 分 ,就 含有 一 个 回归 元 的 旦 没有 截 距 的 OLS 而 言 , 比如 
N 2 或 Nizai 或 者 是 一 个 检验 统计 量 。 

对 于 估计 理论 来 说 ,关注 当 N 一 co 时 序列 的 两 方面 特性 就 足够 了 。 第 一 ,我 
们 考察 bn 的 依 概率 收敛 (convergence in probability) 到 一 个 常 值 或 者 随机 变量 极 
限 值 5, 在 下 述 将 要 定义 的 概率 意义 下 这 个 常 值 或 随机 变量 非常 接近 于 bv。 第 二 ， 
如 有 果 极 限 值 5b 是 一 个 随机 变量 ,该 随机 变量 可 能 需要 对 原来 序列 进行 重新 标 度 , 那 
么 就 要 考察 极限 分 布 (limit distribution ) 。 

通常 ,估计 量 是 平均 值 (averages) 或 和 (sums) 的 一 个 函数 。 于 是 ,一 种 最 容易 
的 方法 是 ,通过 涉及 平均 特性 的 结果 , 即 著名 大 数 定律 与 中 心 极 限定 律 来 推导 极限 
的 一 些 结 果 。 所 用 记号 是 平均 值 和 XN 一 N12,X;, 其 中 ,XX, 表示 对 于 随机 变量 作为 
平均 的 一 般 记 号 ,而 对 于 用 x; 表示 回归 元 向 量 的 情况 来 说 ,X; 不 应 与 之 混淆 。 例 
如 ,就 含有 单个 回归 元 且 没 有 截 距 的 OLS 而 言 , 我 们 将 大 数 定律 用 到 XX; 二 x? 的 平 
均 上 ,而 将 中 心 极限 定律 用 到 X; 二 xiu; 平均 上 。 

表 A. 1 概括 出 附录 余下 部 分 所 要 表述 的 定义 与 定理 。 这 些 内 容 都 没有 给 出 
证 明 , 却 给 出 某 种 讨论 。 关 注 内 容 是 ,通常 人 们 使 用 横 截 面 数 据 时 为 获得 渐 近 正 态 
估计 量 而 使 用 的 一 些 结果 。 男 一 些 结果 满足 运用 非 参数 估计 的 需要 , 当 数 据 依 赖 
于 参数 时 ,满足 运用 参数 进行 估计 所 需 的 结果 ,以 及 当 数 据 具 有 单位 根 时 ,运用 时 
图 序列 进行 估计 所 需 的 结果 。 

第 一 个 重要 的 概念 是 A. 2 节 表 述 的 依 概 念 收敛 。 这 是 利用 A. 3 节 给 出 的 大 
数 定 律 建立 起 来 的 。 男 一 个 重要 概念 是 A. 4 节 表 述 的 依 分 布 收 仿 。 收 和 伍 到 正 态 
分 布 可 以 利用 A. 5 节 给 出 的 中 心 极限 定律 建立 。 对 于 多 元 正 态 分 布 来 说 ,更 进 一 
步 的 结果 及 第 用 术语 已 在 A. 6 节 给 出 。A. 7 节 表 述 了 渐 近 分 析 中 通常 广泛 使 用 
的 简便 记号 , 即 随机 数量 级 。A. 8 节 痢 述 期 望 的 革 些 有 用 性 质 。 
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表 A.1 渐 近 理论 :定义 与 定理 


定义 定理 名 称 式 子 
A. 1 依 概率 收敛 (A. 1) 
A.2 一 致 性 (A. 2) 
A.3 斯 户 次 基 (A. 3) 
A.4 均 方 收敛 (A. 4) 
A.5 切 比 雪夫 不 等 式 (A. 5) 
A.6 几乎 处 处 收 征 (A. 6) 
A.7 大 数 定 理 (A. 7) 
A.8 柯 尔 莫 哥 洛 夫 LLN 
A.9 马尔 可 夫 LLN 
A. 10 依 分 布 收 敏 (A. 9) 
A.11 连续 映射 (A. 10) 
A. 12 变 换 (A. 11) 
A. 13 中 心 极 限定 理 (A. 13) 
A. 14 林 德 伯 格 一 莱 维 CLN 
A. 15 李 雅 普 请 夫 CLT 
A. 16 克 菜 姆 一 沃 尔 德 方法 
A. 17 正 态 极限 乘积 法 则 (A. 15) 
A. 18 渐 近 分 布 (A. 17) 
A. 19 渐 近 方差 (A. 18) 
A. 20 估计 渐 近 方差 (A. 19) 
A. 21 渐 近 有 效 性 
A. 22 随机 数量 级 
A.2 依 概率 收敛 


由 于 样本 固有 的 随机 性 ,尽管 该 样本 可 以 无 限 大 ,但 我 们 永远 不 能 确定 诸如 售 
计量 0( 经 常 表示 成 gw ,以 表明 它 是 一 个 序列 ) 的 序列 bw 位 于 给 定 其 极限 的 某 个 很 
小 距离 之 内 。 不 过 ,我 们 能 大 至 如 此 确定 。 利 用 各 种 不 同方 式 表述 这 种 接近 于 确 
定性 的 形式 ,以 此 对 应 于 随机 变量 序列 收敛 到 其 极限 的 不 同类 型 。 经 济 计量 学 最 
三 泛 运用 的 收 往 极 限 类 型 是 人 恢 概 率 收 敛 。 


A.2.1 依 松 率 收 货 


回顾 , 非 随机 实数 序列 {an } 收 伍 到 a, 如 果 对 于 任意 的 。 汪 0, 存 在 N'= 
N* (e) ,使 得 对 于 所 有 N N' ,有 : 


lan—a |<e 


例如 , 当 aNn 二 2 十 3/N 时 ,其 极限 是 an 二 2, 这 是 因为 |an 一 a 12 十 3/N 一 2 
13/N|I<e, 对 于 所 有 N 生 N' 二 3/e。 
更 一 般 地 讲 , 当 我 们 拥有 随机 变量 序列 时 , 因 其 固有 的 随机 性 ,其 至 对 于 很 大 


一 


的 六 ,我 们 都 不 能 确定 其 极限 的 某 一 个 范围 。 相 反 ,我 们 需要 位 于 s 某 范 围 内 的 概 
率 可 以 是 任意 接近 于 1 的 。 因 而 ,我 们 要 求 


lim Prl Ipv—b|<<e |=1 


对 于 任意 的 es 二 0 。 正 式 定义 如 下 : 
定义 A. 工 依 概率 收 和 敛 ) :一 个 随机 变量 序列 {pv } 依 概率 收 黎 到 六, 如果 对 于 任 
意 的 e 二 0 且 6 0, 存 在 N' 一 N'(e,6), 使 得 对 于 所 有 NN 之 N ,有 : 


Prl Ipv—b|<e | 一 1 一 人 (A. 1) 


我 们 将 其 写成 plim bn 二 6, 其 中 ,plim 表示 概率 极限 简略 写法 ,或 bv 5，。 

注意 到 ,2 可 能 是 一 个 常 值 或 随机 变量 。 对 向 量 随机 变量 的 推广 ,比如 参数 向 
量 估计 量 , 可 以 直接 进行 。 依 概率 收敛 包括 了 作为 特殊 情况 的 实 变 量 序列 收敛 的 
通常 定义 。 定 义 A. 1 是 对 纯 量 随机 变量 序列 来 定义 的 。 我 们 对 bw 的 每 一 个 元 素 
应 用 理论 ,或 者 用 纯 量 (by 一 b)’ (bw 一 b) 二 COiw 一 61)? 十 … 十 (brw 一 bx )? 或 其 平方 
根 | bw 一 b 中 来 代替 |6w 一 4b|。 

当 序列 {bw} 作为 参数 估计 值 6 的 序列 时 ,我 们 有 下 述 大 样本 无 偏 性 的 类 似 
形式 。 

定义 A.2( 一 致 性 ): 估 计量 0 关于 9, 是 一 致 的 ,如 果 ; 


plim 0 —0, ( A. 2) 


0, 的 下 标 “0” 已 在 5. 2. 3 节 给 出 解释 。 注 意 到 ,无 偏 性 并 不 要 求 葵 含 着 一 致 
性 。 无 偏 性 仅仅 表明 ,6 的 期 望 值 是 9, 而 且 它 允 许 在 6, 附近 出 现 变 异性 ,这 一 点 
没有 随 样本 量 趋向 于 无 穷 而 消失 。 同 样 地 ,一 致 估计 量 并 不 要 求 无 偏 性 。 例 如 ,将 
1/N 添加 到 一 个 无 偏 且 一 致 估计 量 上 ,会 产生 一 个 新 的 有 偏 估计 量 ,但 仍 是 一 致 的 。 

尽管 向 量 随机 变量 {bv} 的 序列 可 以 收敛 到 一 个 随机 变量 b, 但 在 许多 经 济 计 
量 应 用 中 , {bw} 收敛 到 一 个 常 值 。 例 如 ,我 们 希望 参数 的 一 个 估计 量 依 概率 收敛 到 
参数 自身 。 应 该 注意 ,一 些 结果 只 有 当 极限 值 b 是 常 值 时 才 可 以 应 用 。 

定理 A. 3( 斯 卢 茨 基 定 理 ) : 设 bw 是 一 个 有 限 维 的 随机 变量 向 量 ,而 g(*) 表 示 
在 常 值 向 量 点 日 处 是 连续 的 一 个 实 值 函数 ,于 是 ， 


by SS b> gby) gh) (A. 3) 


雨 官 (Amemiya，1985, 第 89 页 i511) 给 出 了 此 定理 的 证 明 。 和 鲁 德 (Ruud， 
2000) 盖 明了 有 关 结 果 ,还 可 参见 拉 奥 (Rao，1973 ,第 124 页 ), 即 设 极限 b 是 一 个 
极限 向 量 , 却 是 以 将 gC*) 约 束 为 处 处 连续 为 代价 的 。 注 意 到 ,一 些 作者 反而 将 下 
面 的 定理 A. 12 称 为 斯 卢 欧 基 定 理 。 

定理 A. 3 是 导致 经 济 计 量 学 中 相对 于 有 限 样 本 结果 而 言 渐 近 结 果 盛 行 的 重 
要 原因 之 一 。 它 表述 了 一 种 非常 方便 的 性 质 ,但 该 性 质 对 于 期 望 值 却 不 成 立 。 例 


[1] 原著 中 这 里 为 第 79 页 ,应 为 第 89 页。 一 一 译 者 注 
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如 , plim (bin » Oz2n ) = (bi, b,) 蕴含 着 plim (binb2n) = (bib, )， 而 通常 ELbinbzn 与 
El bi jEl 6; | 却 是 不 同 的 。 


A.2.2 二 他 收 伍 万 式 


通常 ,比较 容易 建立 一 些 其 他 的 收敛 方式 , 反 过 来 也 蕴含 着 依 概率 收 钱 。 

为 了 完整 起 见 ,逐一 给 出 这 些 其 他 方式 。 通 常人 们 广泛 使 用 下 一 节 给 出 的 大 
定义 A. 4( 均 方 收 义 ) :一 个 随机 变量 序列 {pv } 称 为 依 均 方 收敛 到 随机 变量 5， 
如 果 : 

lim EL (bn —6)?*]=0 (A. 4) 


我 们 将 其 写成 bw 了 5。 因 为 bw 之 b 蕴含 着 bv 今 6[ 参 见 拉 奥 (Rao,1973,110 
页 )], 故 依 均 方 收 伍 十 分 有 用 ,而 且 很 容易 证 明 这 一 点 。 然 而 ,这 确实 要 求 bn 方差 
存在 。 如 果 ELON |=6, 那么 需要 证 明 ’ 当 人 一 co 时 ,bw 方差 趋 于 0 。 反之 ,如 果 ON 
对 65 来 说 是 有 偏 的 ,那么 要 求 方 差 之 和 及 仿 倚 平方 趋 于 0。 

经 常用 于 证 明 依 概率 收敛 的 另 一 个 结果 是 切 比 雪夫 不 等 式 。 

定理 A.S( 切 比 雪夫 不 等 式 ) :对 于 任何 一 个 随机 变量 Z, 其 均值 为 jv 且 方 差 为 
0 , 风 : 

PrLCZ 一 /> 和 安 o2/E， 对 于 任何 &>>0 (A. 5) 


对 它 的 证 明 , 可 参见 [ 拉 奥 (Rao,1973, 第 95 页 )]。 广 义 切 比 雪夫 不 等 式 是 用 
任意 非 负 函数 g(Z) 代 震 定 理 A. 5 中 的 (ZZ 一)?, 然 后 证 明 Pr[g(2Z) 盖 kj| 专 
ELg(2Z) ]/k, 对 于 任何 上 > 汪 0。 参 见 雨 官 (Amemiya, 1985, 第 87 页 )。 

定理 A. 5 经 常 通 过 用 bn 代替 Z 来 证 实 依 概率 收敛 。 该 定理 要 求 bn 的 均值 与 
方差 均 存 在 ,这 很 容易 从 涉及 独立 随机 变量 平均 的 估计 量 中 获得 。 不 过 ,在 这 种 情 
况 下 ,我们 经 第 采用 其 至 更 容易 的 路 线 , 并 直接 将 大 数 定律 用 到 平均 值 上 得 到 概率 
极限 。 

从 概念 上 讲 ,更 困难 的 收 伍 类 型 是 几乎 必然 收敛 。 

定义 A.6( 几 乎 必然 收 敏 ) :一 个 随机 变量 序列 {pNv ) 称 为 几乎 必然 收 化 (con- 
verge almost surely) 到 5, 如 果 : 

Pr| limbn=6j=1" 1] (A. 6) 


这 被 记 为 如 一 2。 几乎 必然 收敛 蕴含 着 依 概 率 收敛 [参见 拉 奥 (Rao,1973 ,第 
111 页 ) ]。 依 概率 收敛 比 几乎 必然 收 征 允许 bw 中 出 现 的 特性 更 为 不 规则 。 

对 于 2 来 说 ,几乎 必然 收 伍 还 称 为 强 一 致 性 (strong consistence) , 而 与 之 相 区 
别 , 依 概率 收敛 称 8 为 弱 一 致 性 (weak consistence) 。 依 概率 收敛 比较 容易 理解 ,而 
且 对 于 大 多 数 经 济 计量 应 用 来 说 ,这 已 足够 了 。 


L121 原著 中 该 式 右 端 缺少 三 1 , 现 已 加 上 。 一 一 二 者 注 


A.3 大 数 定律 


大 数 定律 是 依 概 率 收 伍 ( 或 几乎 必然 收 伍 ) 的 特殊 情况 ,此 时 ,序列 {pv } 是 样本 
平均 值 , 即 bw 二 Xn ,其 中 : 

Xn» 一 NX: (A.7) 
注意 到 ,这 里 ,X; 表示 随机 变量 的 一 般 记 叶 ,而 在 回归 背景 下 , 它 不 一 定 表示 回归 
元 变量 。 

大 数 定 律 与 运用 (A. 1) 给 出 的 定义 (6,e) 的 笨拙 选择 方法 或 蕴含 着 依 概率 收 化 
的 其 他 方式 相 比 ,都 更 容易 建立 序列 {bn}) 的 概率 极限 。 

定义 A.7( 大 数 定律 ): 弱 大 数 定 律 (weak law of large numbers， 记 为 LLN) 
是 在 


(各 ,一 ET 又 ]) 20 (A. 8) 


的 条 件 下 ,规定 了 XN 中 各 个 义 ; 项 的 状况 。 

然而 ,对 于 强大 数 定 律 来 说 , 收 伍 就 是 几乎 必然 收敛 。 

考虑 将 大 数 定律 建立 为 XX、 趋 于 其 期 望 值 是 有 益 的 ,尽管 严格 地 讲 , 它 蕴含 着 
XN 趋 于 其 期 望 值 极限 的 比较 弱 条 件 , 因 为 式 (A. 8) 蕴 含 着 : 

plim Xn=lim E| Xn | 

阁 X; 具有 共同 均值 jy , 则 这 简化 成 plim XN 二 jy。 

大 数 定律 的 两 个 重要 例子 如 下 . 

定理 A. 8( 柯 尔 莫 哥 洛 夫 LLN): 设 {X;} 是 iid( 独 立 同 分 布 ) 的 , 当 且 仅 当 
EL[X;] 一 存在 且 E[|X;|] 二 oo0, 则 (XN 一 E[XN]) 一 0。 

定理 A, 9 (马尔 可 夫 LLN}): 设 {XX;) 是 inid( 独 立 但 非 同 分 布 ) 的 。 满 足 E[ X,; | 二 
Hi 且 V [X; | 一 co。 如 果 2 (EL ] Xi; A 7173 ]/2) < 00, 对 于 某 个 和 一 0， 则 
(Xv—E[Xv]) 全 0。 

参见 怀特 CWhite，2001a, 第 32 页 与 第 35 页 ) 对 这 些 定理 的 叙述 ,以 及 拉 奥 
(Rao，1973 ,第 114 一 116 页 ) 的 证 明 。 两 个 定律 为 我 们 提供 了 几乎 必然 收 征 的 比 
较 强 的 结果 ,这 部 含 着 人 们 想 要 得 到 的 依 概率 收敛。 拉 奥 (Rao，1973) 把 定理 A. 8 
称 为 柯 尔 莫 哥 洛 夫 第 2 大 数 定理 (LLN2), 并 对 于 特殊 情况 S=1 表述 了 定理 A. 9， 
他 称 之 为 柯 尔 莫 哥 洛 夫 第 1 大 数 定理 (LLN1)。 

柯 尔 莫 哥 洛 夫 大 数 定 律 允 许 X; 的 方差 甚至 不 存在 , 却 以 要 求 同 分 布 作 为 代 


价 。 它 简化 成 Xp ,其 中 ,jy 二 EL[X]。 该 定律 的 一 个 弱 形式 是 辛 钦 51] 
(Khinchine) 定 理 , 它 可 表述 成 :对 于 iid {X;}) 来 说 ,ELX | 的 存在 总 含 着 依 概率 收 


[ 1] 辛 钦 5Khinchine，1894 一 1959 年 ) ,苏联 数学 家 。 一 一 译 者 注 
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敛 , 这 对 大 多 数 经 济 计 量 应 用 来 说 足够 了 。 

马尔 可 夫 大 数 定律 不 青 要 求 同 分 布 ,但 它 需 要 大 于 一 阶 的 绝对 和 矩 存 在 。5 的 
一 个 明显 选择 是 6 二 1。 于 是 ,需要 方差 存在 ,而 且 边 条 件 是 2 站 1 (oi /六 ) 二 o0。 该 
方差 可 以 变化 ,其 至 随 i 而 增 大 , 假 奇 它 增 大 得 并 不 快 , (oi Vz) 将 具有 无 穷 和 。 当 
5 一 0 时 ,由 于 二 -LE 收 伐 , 所 以 边 条 件 得 以 满足 , 当 of 一 io? 时 ,因为 ,1/71 
发 散 , 改 边 条 件 不 满足 。 

在 大 部 分 微观 经 济 计量 学 的 应 用 中 ,包括 含有 分 屋 抽样 或 固定 回归 元 的 回归 ， 
需要 更 为 复 洒 的 马尔 可 夫 大 数 定 律 。 

大 数 定律 颇 为 引 人 注 目 , 原 因 在 于 这 些 定理 要 求 个 体 成 分 X; 的 假设 ,而 不 是 
平均 值 序列 X、 的 假设 。 由 于 大 部 分 信 计 量 及 检验 统计 量 都 是 数据 的 平均 值 与 不 
可 观测 随机 变量 的 销 数 ,所 以 大 数 定律 是 经 济 计量 学 家 用 于 证 明 依 概率 收敛 的 一 
种 最 普遍 方法 。 


A.4 依 分 布 收敛 


给 定 一 臻 性, 估 计量 6 具 有 退化 分 布 [17, 即 当 N 一 oo 时 在 如 处 出 现 常 值 。 我 
们 需要 放大 或 者 重新 标 度 9, 以便 获得 当 N 一 oo 时 具有 非 退 化 分 布 的 随机 变量 。 
一 种 适当 的 标 度 因子 通常 是 vVN, 在 此 情况 下 ,我 们 考察 随机 变量 序列 bw = 
VN(0 一 0,) 的 特性 。 

通常 ,序列 bs 的 第 NN 个 随机 变量 具有 极 并 复 淋 的 私 积 分 布 昧 数 (cdf) F、。 
如 同 任何 其 他 坪 数 Fw 一 样 , 这 可 能 具有 极限 消 数 ,其 中 的 收 钙 是 在 通常 数学 意 
义 下 的 。 

定义 A. 10( 依 分 布 收敛 ) :一 个 随机 变量 序列 {bv} 称 为 依 分 布 收 人 证 到 随机 变量 
序列 5b, 如 果 在 下 的 每 一 个 连续 性 点 上 . 


lim Pn 一 了 (A. 9) 


其 中 ,Fw 表示 bn 的 分 布 ,下 表示 1 的 分 布 ,而 收敛 是 在 通常 数学 意义 下 的 。 
我 们 将 其 写成 bw 人 5, 并 称 下 为 {bv} 的 极限 分 布 。 


[1] 退化 分 布 (degenerate distribution): 2 个 随机 变量 XI ，…'X%， 的 联合 分 布 被 称 为 退化 的 ,如 果 这 9 
个 变量 之 间 至 少 有 一 种 关系 g(X1，…,X,) 二 0 以 概率 1 成立, 对 于 所 有 Xi ，,… ,Xs 来 说 , 晒 数 g&(*) 本 身 不 是 
恒 等 常 值 孙 数 。 
在 单个 随机 变量 X 的 情况 下 ,有 : 
P(X~=a}=] 
其 对 应 的 cdf 是 : 
0: Ta 
P(XEr)= Fr) = | | ,42a 
而 特征 函数 是 $0) = 二 ew* 。 此 分 布 的 矩 是 jx 二 ECX*) 二 a .上 二 1,2,… ,而 var(X) 一 0。 有 耐候 ,人 们 概括 地 
说 ,这 个 退化 分 布 便 是 描述 “ 非 随 机 变量 "。 其 逆 命 题 同 样 成 立 。 倘 若 某 个 随机 变量 X 具有 有 限期 望 昌 零 方 
差 , 则 PCX=FELX1)=1。 


Ri 


依 概 率 收敛 草 含 着 依 分 布 收 伍 : 即 bp、 今 4b 昔 合 着 5 全 OF 参见 拉 奥 (Rao， 
1973 ,第 122 页 ) ]。 
一 般 地 讲 , 其 逆 不 成 立 。 例如 , 设 DN 和 Av,'X 的 第 入 个 实现 值 一 人 WL uo |] 。 


于 是 ,bw 伺 6~~N[u,o?], 可 是 很 明显 ,6 一 bp) 具有 当 N_> co 时 并 不 消失 的 方差 ， 
因此 , 不 会 依 概 率 收敛 到 六 


然而 ,在 6 为 常 值 的 特殊 情况 下 ,bv 全 六 草 含 着 bw 全 5[ 参 见 拉 奥 (Rao,1973， 
第 120 页 )]。 在 此 情况 下 ,该 极限 分 布 是 退化 的 ,其 所 有 质量 都 位 于 5 处。 

为 将 极限 分 布 推广 到 向 量 随机 变量 ,可 直接 定义 Fw 与 下 分 别 是 向 量 bw 与 b 
的 各 自 cdf。 

定理 A. 11 (连续 映射 定理 ): 设 b、 是 一 个 有 限 维 的 随机 变量 向 量 , 并 设 ge(。，) 
表示 连续 实 值 函数 。 于 是 : 


d d 
by 全 0 一 g(bv) gCb) CA. 10) 


其 具体 证 明 ,参见 拉 奥 (Rao，1973 ,第 124 页 )。 定 理 A. 11 是 依 分 布 收敛 的 ， 
这 类 似 于 依 概率 收 合 的 定理 A. 3。 

下 述 定 理 考虑 了 通过 将 一 个 具有 极限 分 布 的 序列 加 上 或 弱 以 或 除 以 一 个 依 概 
率 收 伍 到 常 值 的 序列 所 具有 的 变换 效果 ，。 


d fy 
定理 A. 12( 变换 定理 ): 如 果 uv 人 >a 且 bv 人 6b, 其 中 ,a 表示 一 个 随机 变量 , 


ed 
(i) CN 十 PN —atb 
d 
(11) anbn 一 > ab (A.11) 
d 
(iii) 倘若 Pri 5 二 0 | 二 0, an/p»y 一 a/b 


其 证 明 参 见 拉 奥 (Rao，1973 ,第 122 页 )。 定 理 A. 12 还 称 为 克拉 上 默 定 理 。 它 
也 称 为 斯 户 次 基 和 定理 ,该 名 称 我 们 已 应 用 于 和 定理 A. 3。 

定理 A. 12 特别 有 用 ,因为 它 允 许 人 们 分 别 求 出 ax 的 极限 分 布 与 bw 的 概率 
极限 ,而 不 用 考察 ax 与 bw 的 联合 特性 。 结 论 (in 尤其 有 用 ,而 且 它 有 时 被 称 为 乘 
积 法 则 。 


A.5 中 心 极 限定 理 


当 序列 {bw}) 是 样本 平均 值 时 ,中 心 极限 定理 就 是 依 分 布 收 合 的 定理 。 中 心 极 
限定 理 提供 了 比 使 用 可 供 选 择 的 其 他 方法 诸如 笨拙 的 式 (A. 9) 更 为 简单 地 获得 序 
列 {bw} 极 限 分 布 的 方法 。 

由 大 数 定律 知 ,样本 均值 具有 退化 分 布 ,因为 它 收敛 到 一 个 常 值 即 lim E[Xw] 
上 。 因 此 ,我 们 借助 于 它 的 标准 差 标 度 ( 叉 、 一 E[ 尺 , ]) ,构造 一 个 具有 单位 方差 的 
随机 变量 ,该 随机 变量 可 以 收敛 到 一 个 非 退 化 分 布 。 
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定理 A. 13( 中 心 极 限定 理 ) : 设 ， 
XN 一 ELXAN 
7 Xn ELXN| (A. 12) 
”VVIX.,] 


其 中 ,及 、 表示 样本 均值 。 中 心 极 限定 律 (central limit theorem， 记 为 CLT) 在 


Zw NT 0,1| (A. 13) 


条 件 下 , 即 Zn 依 分 布 收敛 到 标准 正 态 随机 变量 的 条 件 下 ,规定 了 丸 、 中 各 个 X, 项 
的 状况 。 

通过 构造 知道 ,Zs 具有 均值 为 0 且 方 差 为 1, 因 此 ,需要 证 明 的 内 容 是 正 态 性 。 
中 心 极限 定理 的 正式 证 明 ,可 以 通过 获得 Z、 的 特征 函数 , 即 广 义 矩 母 函数 511 ,并 
且 证 明 , 当 N 一 oo 时 , 它 收 敛 到 标准 正 态 分布 的 特征 函数 。 

注意 到 ,如 果 及 满足 中 心 极限 定理 ,那么 关于 函数 hh(-) 比 如 ACN)== VN， 
h(N) 叉 、 也 满足 中 心 极限 定理 ,因为 


7 _hCN)XN— ELACN)XN | 
y= ON 


VIACN)XNT 
在 许多 应 用 中 ,将 中 心 极限 定理 用 于 正规 化 VNXN 二 NL1X; 上 是 方便 的 , 因 
为 YLvVNXw] 是 有 限 的 。 
中 心 极限 定理 的 例子 包括 : 


定理 A. 14 ( 林 德 贝 格 一 勒 维 CLT): 设 {X;} 是 iid 的 ,满足 ELX,j| 一 上 且 
V| X. |=0，。 那么 ， LN 全 NTo,11]， 

对 该 定理 的 证 明 ,参见 拉 奥 (Rao，1973, 第 127 页 ) 。 

这 是 通常 统计 学 导论 出 现 的 中 心 极限 定理 ,在 iid 情况 下 , 它 十 分 有 用 。 巾 于 
Xi 是 iid 10,o ,所 以 Zn 可 和 亿 化 成 更 熟悉 的 : 


ZN 一 人 一 
o/vN 
注意 到 ,在 iid 情况 下 ,唯一 要 求 u 存在 ,以 此 可 确保 又 v 之 /而 要 获得 极限 正 态 分 
布 , 则 需要 额外 假设 , 即 吐 存在。 
在 诸如 含有 固定 回归 元 的 OLS 一 些 应 用 中 ,iid 假设 是 不 恰当 的 。 人 们 能 应 
用 关于 {X;} inid 的 中 心 极 限定 理 , 尽 管 这 需要 做 出 额外 的 假设 。 
定理 A. 15( 李 雅 普 诺 夫 CLT): 设 {X;}) 是 独立 的 ,满足 ELX; |] 二 且 VLX 二 
用。 如 果 lim(C2 人 EL|Xi 一 p12]))/(210 2 二 0 ,对 于 某 个 选 定 的 6>0, 那 


A LN SN[0,1]. 
本 雅 普 诺 夫 中 心 极限 定理 的 这 种 变形 ,已 经 由 怀特 CWhite， 2001a, 第 119 页 ) 
证 明 。 拉 奥 (Rao, 1973, 第 128 页 ) 曾 述 了 6 二 1 的 特殊 情况 。 


[1] 义 称 为 广义 矩 生成 函数 。 一 一 译 者 广 


李 雅 普 诺 夫 中 心 极限 定理 的 主要 附加 假设 是 ,高 于 二 阶 绝对 和 窍 存在 。 还 要 注 
意 ,附加 假设 与 iid 数据 对 应 的 LLN 的 比较 。 对 于 inid X; 而 言 : 


Z 二 1X; 一 2 六 i 
V i107 
定理 A. 14 与 A. 15 都 是 更 一 般 的 林 德 贝 格 一 费 勒 中 心 极限 定理 的 特殊 情况 
[参见 拉 奥 (Rao，1973, 第 128 页 )]。 林 德 贝 格 一 费 勒 中 心 极 限定 理 具有 很 难 验 证 
的 边 条 件 。 
在 大 部 分 微观 经 济 计量 学 中 ,包括 含有 分 层 抽 样 或 固定 回归 元 的 回归 ,经常 运 
用 更 为 复杂 的 李 雅 普 诺 夫 中 心 极 限定 理 。 





A.6 多 元 正 态 极限 分 布 


本 节 关 注 一 般 的 带 有 多 元 正 态 极限 分 布 估计 量 的 微观 经 济 计量 应 用 情况 。 
A.6.1 多 元 正 态 极 腿 分 布 


前 面 已 阐述 的 中 心 极限 定理 是 有 关 纯 随机 变量 序列 的 情况 。 利 用 下 述 结果， 
可 将 中 心 极限 定理 推广 到 向 量 随 机 变量 序列 上 。 

定理 A. 16( 克 拉 默 一 沃 尔 德 方 法 ): 设 {by} 是 kX1 维 随 机 向 量 的 序列 。 如 果 
Xbw 对 于 每 一 个 kX1 维 常 值 非 零 向 量 入 ,都 收敛 到 一 个 正 态 随机 变量 上 ,那么 bw 
收 钙 到 多 元 正 态 随机 变量 。 

拉 奥 (Rao，1973, 第 128 页 ) 提 供 了 并 不 局 限于 正 态 分 布 的 更 一 般 结果 ，。 

该 结果 的 优点 是 , 铬 bv 是 一 个 平均 向 量 , 则 入 bn 一 MON 十 … 十 Mk 是 一 个 纯 
量 平均 值 ,而 且 我 们 能 应 用 前 面 一 节 给 出 的 纯 量 中 心 极 限定 理 。 从 而 ,得 到 : 


和 AbN 一 入 ALN d | 
> NLO,1) 
VAYVNA 


其 中 ,jw 一 ELby ] ,Vn 二 VLbwjj, 在 此 情况 下 ,得 出 如 下 结论 : 


Vo! (by— po) 人 No, (A. 14) 
这 一 结果 将 在 A. 6. 3 节 进 一 步 解释 。 


A.6.2 线性 变换 


微观 经 济 计量 运用 的 估计 量 经 常 表述 成 VN(0 一 6,) 一 Hnan, 其 中 ,plim Hw 
存在 且 aw 服从 极限 正 态 分 布 。 这 个 积 的 分 布 或 者 ax 的 线性 变换 ,可 从 定理 A. 12 
(变换 定理 ) 的 (让) 部 分 直接 得 到 。 我 们 可 用 一 种 形式 重新 叙述 它 ,该 形式 可 得 出 许 
多 估计 量 。 


定理 A. 17( 极 限 正 态 积 准 则 ) ;如果 向 量 av 全 NM[Hp,A], 并 且 答 阵 Hy 全 了， 
其 中 ,HH 表示 正定 的 ,那么 : 


微观 经 济 计量 学 


Ha S$ NITHyu,HAH' ( A. 15) 
定理 A. 17 能 直接 应 用 到 估计 量 上 。 例 如 ,将 OLS 估计 量 
3 111 1 w 
VN(B-— 08,) (NX'X) RX 


处 理 成 为 Hn 一 (N- 1XX) ! 与 av 一 N 2X'u 的 乘积 ,从 而 我 们 求 出 Hn 的 plim | 以 
及 AN 的 极限 分 布 。 
定理 A. 17 还 可 用 于 证 明 ,通过 极限 分 布 不 变 的 一 致 佑 计量 蔡 换 极限 分 布 方 
差 是 正确 的 。 如 果 已 经 证 明 : 
VN(6 —0,) 人 No,B] 
那么 由 定理 A. 17 ,可 得 : 


Bx'* XVNGO 一 9) 全 Mr0, 
对 于 任何 一 个 了 B 对 而 言 ,Bx 都 是 一 致 估计 值 且 是 正定 的 。 
A.6.3 礁 碌 万 考 和 给 阵 
从 记号 上 看 ,正式 的 多 元 变量 中 心 极限 定理 会 产生 繁琐 的 结果 形式 ,比如 式 
(A.14)。 一 旦 用 Vw” 左 乘 ,并 应 用 定理 A. 17 ,我们 可 用 简单 形式 重新 表述 成 
by— /mw NLO,V] 


其 中 ,V 一 plim VN ,并 假定 bw 与 Yn 被 适当 地 标 度 ,以 使 V 存在 旦 是 正定 的 。 
评 多 作者 都 以 各 种 不 同方 式 来 表述 极限 方差 矩阵 VClimt variance matrix). 


这 是 一 种 最 普遍 的 表述 结果 方式 ,而 且 本 书 就 是 使 用 这 种 形式 。 在 固定 回归 元 的 
情况 下 , 它 可 简化 成 VY 一 lim Vn。 z 
在 微观 经 济 计量 学 一 些 估计 例子 里 ,矩阵 Vw 经 常 是 矩阵 平均 值 ,比如 说 ， 
_1~ 
VAN = NZS 
其 中 ,S; 表示 方 阵 , 它 是 第 i 个 观测 值 的 参数 与 数据 的 函数 。 给 定 对 于 不 同 i 的 独 
立 性 ,通常 可 应 用 大 数 定律 ,从 而 得 出 Vw 一 E[Vv] 人 0。 于 是 : 


NN 
V = lim ELV» | = lim © > ELS,] 
一] 


这 是 十 官 (Amemiya，1985) 曾 经 使 用 的 表述 形式 。 
若 S$ 是 iid 的 , 则 对 于 所 有 观测 值 来 说 ,ELS;] 二 ELSj, 因 而 ,简单 随机 抽样 如 
致 了 比较 简单 的 表达 式 : 


V 一 ElLS 


例如 , 纽 韦 和 麦克 法 登 (Newey and McFadden，1994) 与 伍德 里 奇 (Wooldridge， 
2002) 都 曾 用 过 该 形式 。 

举 一 个 例子 ,考察 带 有 同方 差 误 差 的 OLS 估计 量 ,因此 , VCB- 6u) 全 
NL0,c:M.]。 于 是 ,如 果 应 用 研究 大 数 定律 ,Mw 二 plim N Zixxs 能 被 重新 表 
述 成 Ms 二 lim N >;ELxx], 而 在 简单 随机 抽样 下 , 则 可 表述 成 Mw 二 ELxx ]。 

人 们 也 会 得 到 VY 的 更 为 复杂 形式 ,比如 三 明治 形式 ABA 。 于 是 ,前 面 讨 论 可 
应 用 到 每 一 个 元 素 上 。 例 如 ,在 随机 抽样 下 ,着 B 二 NN ">;S;, 则 B 二 plim Bw 可 以 
表述 成 B 二 lim ELB、 | 或 者 B 一 ELSj]。 


A. 6.4 浙 近 分 布 与 方 淹 


为 了 获得 估计 量 的 极限 分 布 ,由 于 理论 原因 ,我 们 以 序列 bw 二 VN (0 一 0,) 进 
行 分 析 , 以 此 确保 当 六 一 ce 时 ,px 有 非 零 方差 。 于 是 ,bn 的 极限 分 布 是 正 态 分 布 ， 
而 且 许 多 作者 都 说 bn 服从 新 近 正 态 的 ,并 将 极限 方差 矩阵 称 为 bw 的 湖 近 方差 。 

运用 6 自身 的 分 布 及 方差 矩阵 重新 表述 结果 是 十 分 方便 的 。 

定义 A.18(6 的 渐 近 分 布 ) :如 果 : 


VN(0 —0,) $$ NTO, B | (A. 16) 
也 就 是 说 ,0 在 大 样本 下 服从 渐 近 正 态 分 布 , 满 足 ， 
6 一 AT6, ,NB (A, 17) 


其 中 ,“ 在 大 样本 下 ”这 一 术语 意味 着 ,NN 对 于 式 (A. 16) 成 为 良好 近似 来 说 是 充分 
大 的 ,但 并 没有 大 到 使 式 (A.17) 的 方差 趋 于 0。 
结果 (A. 17) 可 由 式 (A. 16) 得 出 ,因为 用 VN 除 以 随机 变量 导致 了 用 NN 除 以 
其 方差 。 
缩写 记号 隐 含 地 假定 了 渐 近 正 态 性 ,并 使 用 下 面 术 语 。 
定义 A. 19(6 的 渐 近 方差 ): 如 果 式 (A. 16) 成 立 , 我 们 称 @ 的 渐 近 方差 矩阵 是 : 
V[6 |=N-!'B (A. 18) 


”定义 A.20(6 的 估计 渐 近 方差 ): 如 果 式 (A. 16) 成 立 , 我 们 称 8 的 估计 渐 近 方 
差 是 : 

V[6]=N 5:B (A. 19) 
其 中 ,了 B 表 示 了 的 一 致 估计 值 。 

一 些 作者 在 定义 A. 19 与 A. 20 中 使 用 Avar[6 ] 与 Avar[6 ] ,以 避免 潜在 地 与 
方差 算 子 符号 V[*] 相 混淆 。 很 明显 ,这 里 的 VL8 ] 意 味 着 估计 量 的 渐 近 方差 , 因 
为 本 书 中 一 些 估 计量 具有 有 限 样 本 方差 的 闭 形 式 表 达 式 。 

举 一 个 定义 A. 18 一 A. 20 的 例子 ,如 果 {X;} 是 iid 的 Lo] ,那么 由 林 德 由 


格 一 勒 维 中 心 极限 定理 得 出 , VNCXN 一 J)/c NT0,1], 或 者 等 价 地 VNX、 全 


微观 经 济 计量 学 


上 本 


MELO,o | 13。 我 们 就 说 ， 在 渐 近 形式 上 Xv~Nl[,o /Nj;XN 的 汐 近 方差 是 
so?/N;Xn 的 估计 渐 近 方 差 是 ?2/N, 其中, s? 表示 a? 的 一 致 佑 计量 ,比如 == 
(Xi— XN) /Nm—1)., 

A.6.5 渐 近 效率 


在 有 限 样 本 中 ,无 候 佑 计 的 方差 协 方 差 矩 阵 的 克拉 默 一 拉 奥 下 界 是 
一 (EL3? ln Lv/3930 |。]) : 。 该 结果 可 被 推广 到 作为 渐 近 正 态 的 一 致 估计 量 上 。 

定义 A. 21( 渐 近 效 率 ) :0 的 一 致 渐 近 正 态 估 计量 8 称 为 是 渐 近 有 效 的 ,如 果 他 
具有 等 于 克拉 默 一 拉 奥 下 界 的 渐 近 方差 协 方差 矩阵 。 





A.7 随机 数量 阶 


使 用 关于 变量 序列 收 钱 速度 的 有 用 记号 是 ,利用 记号 (O,o) 或 者 大 O、 小 o 记 
号 表示 序列 的 数量 阶 。 

如 果 lim(an/gCN)) 是 有 限 非 零 的 , 非 随机 实数 的 序列 ax 称 为 Ol(g(N)) 的 ，; 
而 如 果 lim(an/g(N)) 是 0,aw 称 为 o(g(N)) 的 。 因 而 ,an 是 OCgON)) 的 ,如 果 它 
具有 与 咒 数 g(N) 相 同 的 数量 阶 ; 而 ax 是 oCgCN)) 的 ,如 果 它 具有 比 gC(N) 较 小 的 
数量 阶 。 例 如 , (3/N) 十 (5/N?) 是 O(1/N) 或 者 OCN 71!) ,因为 对 于 大 N 来 说 ,其 
特性 像 一 个 常 值 时 间 六 一 ,并 且 是 oCN 下) 的 , 却 比 oN 7!) 大 。 

这 种 记号 可 被 推广 到 随机 变量 序列 的 随机 数量 阶 上 。 这 类 记号 变 为 (O, ,op ) 。 

定义 A. 22( 随 机 数量 阶 ): 随 机 变量 序列 bn 称 为 O,(g(N)) 的 ,如 果 : 


. bn 
0 一 plim TN) << ce 


而 随机 变量 序列 bn 称 为 0,(g(N)) 的 ,如 果 : 


绝 大 多 数 时 候 , 对 某 一 个 常 值 来 说 ,gCN)=N-: 。 估 计量 6 关于 b 是 -一至 
的 ,这 能 够 被 写成 6 二 十 o,(1) ,因为 它 等 于 6 加 上 一 个 依 概 率 趋 于 0 的 项 。 个 
计量 关于 0。 是 根 号 N 一 致 的 ,能 够 被 写成 2 一 % 十 DCNT-22) ,从 而 NO 一 
bo ) = 0,(1) o 


A.8 其 他 一 些 结果 


本 节 包 括 有 限 样 本 的 条 件 期 望 以 及 期 望 与 变换 进行 交换 的 一 些 重 要 结 来 。 
定理 (期 望 迭 代 定 律 ) :对 于 随机 变量 了 与 入 : 


[1] 原著 中 该 式 为 N[x,o2], 应 该 为 NL0, o2], 这 里 已 改 。 一 一 译 者 注 


wh 大 本 到 


ELY | 一 ExLEwxLY| 


其 中 ,EL， | 表示 Y 的 无 条 件 或 边际 均值 的 期 望 ,Ex[L,] 表 示 关 于 X 的 边际 cdf 的 无 
条 件 期 望 ,而 巨 yx[*|Xj] 表 示 给 定义 时 关于 Y 的 条 件 分 布 的 条 件 期 望 。 

这 个 结果 意味 着 ,如 果 我 们 首先 获得 给 定 X 时 Y 的 条 件 均 值 ,然后 针对 X 取 
期 望 但 ,那么 将 获得 Y 的 无 条 件 均 值 。 参 见 拉 奥 (Rao，1973, 第 97 页 ) 的 证 明 。 
例如 ,在 Elulxj 二 0, 那 么 ELuj==E,[Elulx|]= 二 EL0]==0。 

定理 (方差 分 解 ) :对 于 随机 变量 Y 与 义 ， 


VLY 一 ExLV yixLY | X | 二 VxLE ylxLY | Xj 


其 中 ,VLY 表示 YY 的 无 条 件 方 差 ,Ex|[，j] 表 示 关 于 XX 的 边际 cdf 无 条 件 期 望 ， 
VylxLY|Xj] 表 示 给 定 久 时 Y 的 条 件 方差 ,Vx[，] 表 示 关 于 义 的 无 条 件 分 布 的 方 
差 ,Eylx[" |XX] 表 示 给 定 久 时 YY 的 条 件 分 布 的 条 件 期 望 。 

总 之 ,Y 的 无 条 件 方差 等 于 :(1)( 针 对 X) 条 件 方差 的 期 望 值 与 (2)( 针 对 X) 条 
件 均值 的 方差 之 和 。 记 住 该 关系 式 的 简单 方法 是 ,清楚 认识 到 ,无 条 件 方差 等 于 
EV 加 上 VE。 参见 拉 奥 (Rao，1973, 第 97 页 ) 的 证 明 。 

定理 (得 森 不 等 式 ) :如 果 了 是 一 个 随机 变量 ,使 得 下 | Z 1 存在, 并且 g(*) 是 一 


个 西 测 数 ,那么 : 
8CELZ 和 ELgCZ) 
然而 ,如 果 g(，) 是 一 个 凹 函 数 ,那么 : 
gr(ELZ]) 三 Eltg(CZ) 


对 于 非 线 性 模型 来 说 ,这 个 结果 极为 重要 , 它 已 由 拉 奥 (Rao，1973 ,第 58 页 ) 
证 明 。 该 定理 强调 了 平均 个 体 的 特性 与 平均 特性 之 间 的 差异 。 例 如 ,假定 一 个 指 
数 模型 合适 ,满足 ELy|xj=exp(xG)。 于 是 ,由 于 该 指数 函数 是 凹 的 , 故 往 森 不 等 
式 草 含 着 exp(ELx B11) 宇 ELexp(x BB)]。 因 此 ,在 个 体 平均 特性 处 计算 的 条 件 均 值 
x 一 ELxj 大 于 无 条 件 均值 ELy] 一 E[ELy|x|| 一 Efexp(x 6B)j。 


A.9 文献 注释 


一 个 带 有 证 明 的 经 典 文献 来 源 于 拉 奥 (Rao，1973, 第 108 一 130 页 ), 这 里 ,我 
们 尽 可 能 地 引用 其 绪论 。 所 概括 的 结果 还 密切 依赖 于 十 宫 (Amemiya，1985 ,第 3 
章 ) 以 及 怀特 (White，2001a) 的 书 。 

研究生 水 平 的 教科 书 , 诸 如 格林 (Greene，2003) 的 书 提 供 了 对 重要 结 时 的 总 
结 。 更 为 高 等 的 教科 书包 括 戴维森 和 才 金 农 (Davidson and MacKinnon，1993)、 
享 德 里 (Hendry，1995) ,和 鲁 德 (Ruud，2000) 以 及 伍德 里 奇 (Wooldridge，2002) 的 
书 , 这 些 书 提供 了 至 少 与 本 书 同 样 详 细 的 处 理 。 戴 维 条 (Davidson，1994) 为 经 济 
计量 学 家 提供 了 随机 理论 的 一 个 深入 详细 的 研究 。 尤 其 在 使 用 斯 户 欧 基 定 理 及 克 
拉 默 定理 时 ,前 面 提 到 的 术语 会 因 参 考 文献 不 同 而 表现 得 不 一 样 。 





在 这 个 附录 里 ,我 们 阐述 重要 的 一 元 分 布 的 密度 或 概率 质量 函数 以 及 前 二 阶 
算 ,然后 表述 从 这 些 分 布 中 生成 随机 采样 的 一 些 方法 。 


表 B.1 连续 随机 变量 的 密度 与 和 矩 * 
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表 B.2 连续 随机 变量 生成 器 
随机 变量 变量 范围 随机 变量 生成 器 
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Ti=puto Vv —21nCr)cos(2rr) 
=pjpto Vv —2In(r)sin(2rrs) 
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